数据挖掘中的关联规则算法研究

韩涛

中国海洋大学

下载全文

在线阅读

引用

摘要：

数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段，其中关联规则挖掘是一种主要的也是用途最广的数据挖掘方法。关联规则概念最早是由在IBM工作的RakeshAgrawal博士于1993年提出的，用于刻划事务数据库中交易项目之间的关系，即频繁关系。其研究已有10余年时间并取得了很多成果，但还有很多问题亟待解决。本文对此作了详细介绍，并对关联规则挖掘理论特别是关联规则挖掘算法进行了研究，取得了一定的研究成果。本文对关联规则挖掘的经典算法：Apriori、AprioriTid、AprioriHybrid算法、Apriori_RFM算法、划分的算法和取样算法进行了研究，针对上述算法的不足提出了一种快速挖掘关联规则的算法AprioriTidHybrid。算法以经典的Apriori和AprioriTid为基础，针对其特点对算法提出了改进，在最初的阶段用Apriori算法，在后来的扫描中用AprioriTid；考虑了C2可能比源数据库大的情况，在L2的基础上产生，而不是在传统的C2的基础上产生C2，大大地压缩了C2的规模；采用一种更为高效的DA_gen算法代替Apriori_gen来产生候选项集。实验结果表明，较Apriori和AprioriTid算法的性能有明显的提高。本文提出的基于Apriori、AprioriTid的取样关联规则算法研究创新之处在于，提出了一种高效的关联规则挖掘算法FASTA：采用经典的FAST的算法思想选取样本，使得选取的样本更具有典型性和精确性；对所选取的样本用本文提出的AprioriTidHybrid进行关联规则的挖掘。在实验中同其它的算法进行了比较，改进的算法提高了挖掘性能。

关键词：数据挖掘;关联规则;数据仓库;AprioriTid算法

授予单位：中国海洋大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：张春海

学位年度：2005

语种：中文

分类号：TP311.13;TP301.6

页数：59

在线出版日期：2006-07-27（万方平台首次上网日期，不代表论文的发表时间）

学位专题