学位专题

<
DOI:10.7666/d.y2212235

基于混合核函数支持向量机的文本分类研究

李希鹏
中国海洋大学
引用
随着计算机技术的高速发展,人们搜集、存储数据的能力空前提高,不管在科学研究还是在社会生活的各个领域,都积累了大量的数据。采用机器学习的方法分析数据、挖掘数据背后的信息,促成了基于支持向量机的分类技术的产生。自20世纪90年代Vapnik等人提出基于统计学习理论支持向量机算法以来,基于核函数的机器学习方法(核方法)得到了迅猛的发展,目前已经成为了机器学习领域和人工智能领域的研究热点之一,广泛应用在生物信息技术、图像处理和文本分类等多个领域。  对支持向量机的进一步研究,无论对核函数理论的完善和发展,还是对核函数方法在应用领域的进一步研究拓展,都具有极其重要的意义。核函数是实现非线性映射的重要途径,正是支持向量机得到广泛应用和取得良好效果的关键所在。本篇论文的工作就是研究混合核函数的性质、构造以及应用。研究混合核核函数的意义在于一方面可以扩展提高支持向量机在现实生活中的应用性;另一方面核函数方法还处于刚刚发展的初始阶段,其潜力还没有得到完全发掘。  随着WEB数据挖掘技术的不断发展,现今的文本分类技术如何能够改善文本信息杂乱无章的状况,提高对WEB数据搜索的质量,进而快速有效的获得文本信息已经成为研究的重点。所以,人们越来越关注文本自动分类技术。基于机器学习的文本自动分类技术有着比较好的效果,该技术有着多种算法,例如:朴素贝叶斯算法、k最近邻算法、决策树算法以及支持向量机算法等。  本文将基于混合核函数的支持向量机算法应用于文本分类技术中,先分析了新的混合核函数的合法性、性质、算法,之后分析了WEB文本分类的方法步骤:文本预处理,特征降维,文本特征的表示方法等,并构造了一个由支持向量机构造的WEB文本分类模型,通过仿真实验证明,新构造的混合核函数比单核以及常用的混合核函数的分类精度有所提高,并具有较高效率。

支持向量机;混合核函数;加权多宽度高斯核;文本分类;特征降维;机器学习

中国海洋大学

硕士

通信与信息系统

赵犁丰

2012

中文

TP391.1;TP181

62

2012-12-27(万方平台首次上网日期,不代表论文的发表时间)