流形学习中非线性降维方法的研究及在烟草数据中的应用
对机器学习和数据挖掘等领域进行研究的目的之一是通过对高维数据的分析和处理来探寻隐藏在其中的内部规律;但是由于现实世界的复杂性,越来越多的数据呈现出维数过高、数据量过大、结构呈非线性、高增长率等特点;这对传统的机器学习和数据挖掘分析方法提出了严峻的考验,而流形学习作为机器学习一个新兴的数据分析方法,可以很好的发现高维数据分布的内在几何结构,挖掘出高维数据内部规律及本征信息,有效结合可视化技术在低维空间来观测高维数据内部特性。目前流形学习已经广泛应用于各个领域并取得了良好的效果。
本文分别对当前流形学习中主流的线性降维方法和非线性降维进行了理论和应用的详细介绍,通过深入分析线性方法在处理某些高维数据所存在的局限性的基础上恰当地引出非线性降维方法;本文重点研究和分析了非线性降维方法中经典的LLE算法、ISOMAP算法,对两种算法在部分烟草数据集和人工数据集进行了对比、分析和总结,发现了算法存在的共性问题---邻域内样本点个数的如何正确选择。为更好的解决这个问题,本文主要做了以下几个方面的工作:
1、针对高维空间数据分布有可能呈现非线性的特点,本文适时地引入了核变换思想,将原始数据空间通过某种映射变换到一个线性或近似线性的更高维的空间,在这个空间来研究对数据进行规律性的挖掘和分析;这项研究工作主要目的是有效解决烟叶原料质量数据样本点稀疏、局部非线性等难题;为下一步算法的提出和实验验证奠定基础。
2、影响LLE算法执行效果的关键因素是近邻个数K的选择,确定自适应近邻个数K的重要前提是搞清楚高维数据的空间分布是否符合某个特征分布;针对此问题,本文引入并简述了高斯分布(正态分布)的概念性特征,对烟叶质量数据各个质量指标属性(随机变量)进行分析,分析结果表明烟叶质量数据具有正态特性。分析烟叶原料质量数据的正态性之后,本文给出了在此分布下自适应确定近邻个数K的具体实现方法。
3、在用核方法解决了烟叶原料质量数据点稀疏、局部非线性问题,并在分析烟叶原料质量数据符合正态分布的情况下融合了自适应近邻的思想的前提下,本文提出了基于核变换的自适应近邻的LLE改进算法(KANNLLE),详细分析并给出了算法的设计流程。
4、通过结合聚类技术对KANNLLE算法进行了实验验证和分析;结合二维可视化技术通过对比LLE、KANNLLE处理后的数据的聚类效果,以直观的视觉角度证实了改进算法的有效性;同时从对聚类结果的数值统计的角度分析了算法的优越性。这也为流形学习算法同其他相关领域技术相结合提供了一种研究思路。
5、总结了本文的主要工作,并从算法实际应用、算法同其他聚类算法优化结合以及将该算法思想同其他流形学习方法如ISOMAP有效融合等方面展望了今后的研究方向。
流形学习;非线性降维;核变换;自适应近邻;烟叶原料;质量数据
中国海洋大学
硕士
计算机软件与理论
丁香乾
2011
中文
TP181;TP311.13
63
2011-10-31(万方平台首次上网日期,不代表论文的发表时间)