数据挖掘中的关联规则算法研究
数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段,其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。
关联规则概念最早是由在IBM工作的RakeshAgrawal博士于1993年提出的,用于刻划事务数据库中交易项目之间的关系,即频繁关系。其研究已有10余年时间并取得了很多成果,但还有很多问题亟待解决。本文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了研究,取得了一定的研究成果。
本文对关联规则挖掘的经典算法:Apriori、AprioriTid、AprioriHybrid算法、Apriori_RFM算法、划分的算法和取样算法进行了研究,针对上述算法的不足提出了一种快速挖掘关联规则的算法AprioriTidHybrid。算法以经典的Apriori和AprioriTid为基础,针对其特点对算法提出了改进,在最初的阶段用Apriori算法,在后来的扫描中用AprioriTid;考虑了C2可能比源数据库大的情况,在L2的基础上产生,而不是在传统的C2的基础上产生C2,大大地压缩了C2的规模;采用一种更为高效的DA_gen算法代替Apriori_gen来产生候选项集。实验结果表明,较Apriori和AprioriTid算法的性能有明显的提高。
本文提出的基于Apriori、AprioriTid的取样关联规则算法研究创新之处在于,提出了一种高效的关联规则挖掘算法FASTA:采用经典的FAST的算法思想选取样本,使得选取的样本更具有典型性和精确性;对所选取的样本用本文提出的AprioriTidHybrid进行关联规则的挖掘。在实验中同其它的算法进行了比较,改进的算法提高了挖掘性能。
数据挖掘;关联规则;数据仓库;AprioriTid算法
中国海洋大学
硕士
计算机应用技术
张春海
2005
中文
TP311.13;TP301.6
59
2006-07-27(万方平台首次上网日期,不代表论文的发表时间)