会议专题

一种基于数据继承关系的C4.5分类优化算法

传统C4.5分类模型在选择属性分支利用信息增益的方法选择测试属性,相比其他树分类模型在速度和预测精确度上都有较理想的结果.但是C4.5分类模型在一个测试属性展开分支的时候需要对属性的每个值产生一个分支,这导致了决策树规模的增大,不利于分类模型泛化能力和健壮性.而在现实世界中存在着大量具有本体关系上的层次的继承关系的数据,例如体现在具体属性上可能是数据描述的精度或者抽象程度的不同.结合了数据的这一个特点和C4.5分类模型在选择属性分支利用信息增益的方法,在自动构造的继承关系树引导下构造了一个C4.5的改进模型,尽可能使训练样本在数据的更高的抽象程度作出分裂,以产生更少的分支.在UCI数据集上检验了该分类模型,实验结果表明该模型有效地提高健壮性上,在预测精确度和可理解性上的表现也比较好.

数据挖掘 决策树 继承关系 分类模型 优化算法

胡海斌 邱明 姜青山 胡海龙 赵新星

厦门大学软件学院 福建厦门 361005 厦门大学软件学院 福建厦门 361005 成都大学 成都 610106

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

491-496

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)