基于可拓聚类方法的数据挖掘研究
目前,人们使用计算机网络等高级技术发现数据信息的能力比以前大大提高了,很多数据信息被运用于商务决策、市场分析、科学研究和工程项目的开发等,这一趋势将得到持续发展。现代社会的信息等技术的高速发展以及数据库应用的规模和范围的不断扩大,使得人们能够获得的数据量也越来越大了,数据的种类也变得日渐繁多。特别是互联网的快速发展发展为我们带来大量的数据和信息,面对这么大规模的、而且存在着异常数据的数据库信息,如何从其中提取出隐含的、有用的、对商业等的决策有用的信息或知识,进一步提高信息利用率,成为现今世界急切需要解决的一个重要问题。在这种情况下对于数据挖掘及其方法的研究就变得极为重要了。本文就是基于这一点,在对数据挖掘的方法及其算法分析研究的基础上提出一种新的可拓聚类方法。
本文研究的问题是属于可拓工程和数据挖掘方面的。在借鉴和综合国内外前人的相关研究成果的基础上,在分析研究了目前数据挖掘理论基础及其聚类方法的基础上,将可拓学的理论知识引入到了数据挖掘中去,从可拓学研究的基本思想、工具和方法出发,将问题进行了形式化的描述,建立了以可拓集合和关联函数为核心的可拓聚类方法。该方法以物元为基础,将知识定义为物元,首先将知识以物元的形式模型化,形成进行数据挖掘的最初知识模板,然后用要分析的数据信息形成可拓集合,确定物元分析的经典域和节域,最后建立解决问题所需要的关联函数,用关联函数值的大小来判断待分析的知识信息属于某集合的程度,从而进行聚类。
本文所做的研究工作主要包括以下几个方面:
(1)比较详尽地论述了目前国内外对数据挖掘相关理论及其应用研究的总体情况,包括数据挖掘的概况、挖掘数据的特点、数据挖掘的过程、挖掘中常用的几种方法以及在科学研究、金融业、医疗等领域的应用。
(2)对数据挖掘中的聚类分析方法进行了比较深入的研究,包括聚类分析概述、常用的五种聚类方法的内容、优点、缺点和几种主要聚类算法的描述,同时对其从时间复杂度、目标数据属性、发现聚类形状、对噪声数据的敏感性、对数据输入顺序的敏感性、高维性和算法效率7个性能进行了比较。
(3)论述了建立可拓聚类方法中所使用的可拓学方面的理论、定义和公式,包括基于理论、可拓集合论和关联函数;在此基础上提出了建立可拓聚类方法模型的一般过程,并对其具体内容进行了详细的描述:最后以具体的数据为基础,通过地震分类识别实例研究对验证了可拓聚类方法模型的有效性。
计算机网络;数据信息;数据挖掘;可拓聚类方法
中国海洋大学
硕士
管理科学与工程
张勤生
2009
中文
TP311.13
65
2009-09-28(万方平台首次上网日期,不代表论文的发表时间)