基于自组织特征映射的海洋文献聚类分析的研究与实现
随着国家海洋战略的实施,与海洋有关的Web文献数迅速增长。对海洋文献进行聚类分析,有助于海洋信息挖掘,这对于海洋科技有重要意义。
中文文档聚类分析包括数据库文档抽取、文档中文分词、构建文档集的表示模型、基于文档集模型进行聚类分析等步骤。与英文文档处理不同,中文文档的处理必须先进行分词。常见的分词方法有基于字符串匹配的、基于理解的和基于统计的三种方法。目前的分词方法基本满足了实际需求,关键是选择合适的分词软件。信息获取领域中,一般采用向量空间模型作为文档集的表示模型,从该模型可容易地计算出文档之间的相关度,因而可用于文档聚类分析。聚类算法有很多,如基于划分的、基于层次的、基于密度的等多种算法,算法选择取决于应用目的。
为构建基于自组织特征映射神经网络的海洋文献聚类系统,本文分析了中文分词的常用方法,研究了文档集的表示模型以及各种聚类算法,设计并实现了一个基于自组织特征映射神经网络的文档聚类分析系统OCA,主要工作及创新点如下:
1.在分析和比较各种聚类算法的基础上,选择自组织特征映射(SOM)神经网络作为海洋文献聚类分析的算法,这里的SOM神经网络采用厨师帽获胜邻域,邻域内神经元调整权值。
2.研究了中文分词技术,比较了各种分词方法,选择分词准确率高的软件MMSEG实现对中文海洋文献的分词。
3.用向量空间模型表示文档集,用广为接受的TFIDF表示词汇对文档语义的贡献。
4.在Eclipse环境下用Java实现了一个基于SOM的海洋文献聚类系统OCA,从CNKI下载若干海洋文献,用OCA系统对其进行处理,实验表明该系统可对海洋文献进行有效的聚类分析。
海洋文献;聚类分析;自组织特征映射
中国海洋大学
硕士
软件工程
王庆江;董晶
2009
中文
TP391.1
48
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)