机器学习中的特征选择算法研究
特征选择是目前机器学习领域的研究热点之一,基因工程,文本分类,图像检索等大规模机器学习问题的不断涌现,迫切需要准确性和运行效率等综合性能较好的特征选择算法以及机器学习算法。近年来的研究表明许多机器学习算法受不相关或冗余特征的负面影响,而通过选择合适的特征选择算法,可以有效的去除不相关的特征和冗余特征,提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型。
本文首先介绍了特征选择的基础知识,并简要介绍了两种典型的特征选择算法。特征选择算法主要分为Filter和Wrapper两大类,Filter算法运行速度快、而Wrapper算法准确率高。为了充分利用两者的优点,本文提出了一种基于互信息和遗传算法的特征选择算法,即MI-GA算法,实验表明该算法的运行速度较快,得到的特征子集维数较小,并且分类器在该算法得到的子集上具有较高的分类准确率。
集成学习也是近年来机器学习的研究热点,提高个体分类器的精度,增加个体分类器间的差异,可以有效的提高集成学习的泛化性能。而特征选择是提高分类器精度并增加个体分类器差异的有效方法,因此本文将特征选择应用到集成学习中,提出了一种基于交叉验证和ReliefF的集成学习算法(CVReEn),通过在UCI数据集上的实验,表明了该算法可以有效的提高集成学习的泛化性能。
特征选择主要集中在监督学习中,无监督的特征选择研究还不多,本文对无监督的特征选择算法进行了初步的总结,并对一种典型的Filter无监督特征选择算法做了较为详细的介绍。
本文最后对研究工作进行了总结,并指出了今后进一步的研究方向。
机器学习;特征选择;集成学习
中国海洋大学
硕士
通信与信息系统
丁香乾
2009
中文
TP181
60
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)