基于C4.5随机决策树的分析
C4.5分类算法是一种贪心算法,在树的每个节点上,使用信息增益度量,选择具有最高信息增益的属性作为当前节点的测试属性。与C4.5不同,集成分类Randomization算法(SRT)在迭代学习每个子决策树Mi过程中,随机地选择一个属性作为树节点的测试属性。基于以上两种算法,本文提出受控的Randomizing算法(CR),该算法使用分裂深度及属性比阈值控制树节点测试属性的选择;用该算法学习生成一个受控的集成分类器(Ms_c)并在Ms_c中选择一个最接近于全局最优的决策树(Mb_c)。实验表明:与标准Randomizing及C4.5算法相比,Ms_c有更好的分类效果且在算法C4.5分类错误率比较高的数据集上有明显的改进;Mb-c对C4.5算法有所改进,但效果不太明显。
数据挖掘 C4.5随机决策树 集成分类 Randomizing模型
郭华平 陈猛 范明
郑州大学信息工程学院,河南 郑州 450052
国内会议
洛阳
中文
179-185
2008-08-22(万方平台首次上网日期,不代表论文的发表时间)