决策树分类算法的研究及其在纳税评估中的应用
数据挖掘(Data Mining,DM)是从大量数据中发现潜在规律、提取有用知识的方法和技术.近年来,数据挖掘受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域.数据挖掘已广泛应用于生物医学、金融、零售业、电信业等领域,并产生了巨大的效益.该文以为国税开发数据挖掘项目"纳税评估智能分析系统"为背景,在深入调研与分析国内外数据挖掘相关理论、应用和技术文献的基础上,详细评述了基于分类数据挖掘的相关理论与技术;并针对C4.5决策树算法实现提出了三种改进策略;并利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,比较了改进前与改进后C4.5算法的执行效率,通过实验数据可以看出,改进后的C4.5算法(该文称之为QC4.5)在执行效率上有了明显的提高.该文的主要研究内容为:1.研究了了数据挖掘的概念与发展现状、数据挖掘的过程模型与数据挖掘的分类等.2.研究了决策树分类方法,详细阐述了C4.5决策树的构造算法、分裂准则、剪枝准则、评价方法等.3.针对C4.5决策树算法实现,提出了三种改进策略,并通过样本集的特征选择最合适的策略,从而较好的提高了算法的执行效率.4.最后把QC4.5(改进后的C4.5算法)算法应用于纳税评估智能分析系统中有无避税嫌疑预测,并设计实现;在实际应用中取得了较好的效果.该文的创新主要体现在:在决策树自顶向下递归构造过程中,对于每一个连续型属性并不是使用同一种计算方法计算属性的信息增益,而是根据属性值的特征从三种改进策略中选择一种执行效率最优的策略来计算此连续属性的信息增益,从而提高整个决策树的生成效率.通过实验数据表明,QC4.5的执行效率优于C4.5,证明了方法的可行性.
知识发现;数据挖掘;决策树;C4.5;纳税评估
中国海洋大学
硕士
信号与信息处理
褚东升
2004
中文
TP311.13;F810.42
43
2005-05-24(万方平台首次上网日期,不代表论文的发表时间)