学位专题

<
DOI:10.7666/d.y1928163

基于加权多宽度高斯核函数的支持向量机聚类算法研究

王栋
中国海洋大学
引用
用机器学习的方法分析数据、挖掘海量数据背后的知识,促成了数据挖掘的产生。聚类分析是数据挖掘的一项重要功能,其作为数据分割的方法,能将具有相似性质的数据划分到同一类中,因此也常常用作异常数据点识别的方法。支持向量机是借助于最优化方法解决机器学习问题的新工具,最初于20世纪90年代由Vapnik提出,它通过核函数工作在特征空间,也就是在输入空间无法解决的非线性问题可在特种空间中获得线性性能。而核函数作为实现非线性映射的重要途径是支持向量机得到广泛应用和取得良好效果的关键所在。将支持向量机应用聚类分析构成支持向量聚类算法,在该算法中高斯核函数可调参数的唯一性和数据样本空间分布的不均匀性,使其在样本的稠密区域产生过学习现象,而在样本的稀疏区域则产生欠学习现象,限制了支持向量机泛化性能。因此,本文提出了泛化能力更强的加权多宽度高斯核函数。   本论文主要研究了基于加权多宽度高斯核函数的聚类算法。研究加权多宽度高斯核的意义在于一方面可以扩展支持向量机的应用性,提高支持向量机的性能,进而扩展模式分析、人工智能和机器学习;另一方面核方法作为一门独立的学科,处于刚刚发展的初始阶段,其潜力还没有得以完全发掘。   本论文主要创新工作是:   1.在支持向量聚类中,普通高斯核函数存在局限性,提出了泛化能力更强的加权多宽度高斯核函数,通过多参数调节提高核的学习能力和泛化能力。   2.将加权多宽度高斯核学习引入到聚类分析中,提出了一种加权多宽度高斯核聚类算法。通过加权多宽度高斯核的非线性变换,利用不同宽度反映样本特征的不同重要性,把输入的数据集映射到高维特征空间,增强了特征空间中元素的可分性。   3.通过实验分析了核函数参数变化对支持向量聚类效果的影响,证明了利用加权多宽度高斯核进行聚类比普通高斯核能够取得更好的效果。

支持向量机;聚类分析;加权多宽度高斯核函数;非线性变换;机器学习

中国海洋大学

硕士

信号与信息处理

赵犁丰

2011

中文

TP181

80

2011-10-31(万方平台首次上网日期,不代表论文的发表时间)