基于FCM聚类的算法改进
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。目前聚类算法大体上分为基于图论的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法和基于划分的方法。
模糊C-均值(FCM)聚类算法是非监督模式识别中应用最为广泛的算法之一。由于该算法是通过极小化目标函数而求得最优解的。该算法随机选取C(C为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。该算法也有它固有的不足:算法在进行聚类以前要求知道C值,这对于没有经验的用户来说很困难;初始聚类中心的选择对于最后的聚类结果有很大的影响,如果初始聚类中心选择不当,目标函数有可能得不到全局最优,而陷入局部极小值。
此文首先对常用的几种聚类算法分别进行了介绍,并举例说明。然后重点讨论了基于FCM聚类的算法改进。试图从几个方面对FCM聚类进行改进:C的选择;初始聚类中心的选取;用类核代替类心;修改距离测度函数以及修改隶属度m的值。实验采用聚类中常用的IRIS数据集来测试改进算法,并且和标准FCM算法进行了比较,证实了该算法的有效性。最后简单讨论了。FCM聚类在海雾识别中的应用。
聚类算法;模糊聚类;数据挖掘;模式识别;海雾识别
中国海洋大学
硕士
通信与信息系统
姬光荣
2007
中文
TP391.4;O235
54
2007-09-03(万方平台首次上网日期,不代表论文的发表时间)