决策树中基于贝叶斯定理提取异常规则
分类发现是数据挖掘中一项重要的任务.分类是要构造一个数学模型(分类器),该模型能把数据库的记录映射到某一个特定的类别.有许多模型用来构造分类器.在数据挖掘领域,相对于其它而言模型决策树具有简洁、高效等特点,故其应用最为普遍.该文从提高决策树分类的准确率入手,对传统决策树叶子节点进行重新定义,提出大多数类叶子节点的概念.针对上述情况,该文提出把异常规则的概念.大多数类叶子节点中含有少数类别属于异常情况.在此节点中找出满足条件为类别为少数类别的、所有现存的、未使用过的测试属性值所构成的合取联接.异常规则的提取发生在大多数类叶子节点上.为了进一步提高建树的效率,该文使用一种预剪枝技术.它采用熵值理论的思想,提出一个分裂阈值.当某一节点小于预定阈值时,表明此节点已趋于纯净,再继续进行分裂已经没有实际意义,并停止继续对其进行分裂.这避免了后剪枝策略所需的高昂代价,减少了扫描磁盘数据的次数和大量的CPU时间,进一步提高了算法的效率.
大多数类叶子节点;异常规则;剪枝;12交叉验证
中国海洋大学
硕士
计算机应用
栾新
2003
中文
TP311.13
50
2004-04-08(万方平台首次上网日期,不代表论文的发表时间)