会议专题

缺失数据处理方法的比较研究

由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的。

数据挖掘 缺失值 朴素贝叶斯分类器 Robust 交叉验证 缺失数据处理

乔珠峰 田凤占 黄厚宽 陈景年

北京交通大学计算机与信息技术学院,北京,100044

国内会议

第一届Agent理论与应用学术会议

山东烟台

中文

171-175

2006-08-19(万方平台首次上网日期,不代表论文的发表时间)