基于粗糙集的缺失数据填补技术研究

摘要：

计算机技术的进步使得人们积累的数据量爆炸式增长，但知识却难以获取。大量数据堆积起来形成“数据坟墓”，如何将其转换成知识“金块”，数据挖掘技术应运而生，它从海量数据中提取或“挖掘”知识，供决策之用。然而，存在不完整的，含噪声的和不一致的数据是大型的、现实世界数据库或数据仓库的共同特点。普遍存在的规律是：数据质量越好，挖掘的结果也越准确。因此，数据预处理是数据挖掘过程的重要阶段。对于缺失数据的处理，已有许多方法，比如Mean Completer算法、Combinatorial Completer算法等。这里提出一种基于粗糙集的方法，在第一步利用相容关系降低不完备程度后，第二步将数据表分解、逐层分类，再在细化的类中使用最可能的值填补缺失数据，完备我们的决策系统。本文介绍了基于粗糙集的两步填补算法。总结两步填补算法利用了粗糙集在处理不完整性和不确定性问题方面的优势，在试图降低输人集的不完备程度之后对其分解，逐层分类，获得比用决策属性划分更细的集合，使得其中的对象高度相似，并以此填补缺失数据，以尽可能最大程度保持知识的一致性。

关键词：粗糙集两步填补算法数据预处理数据挖掘海量数据

作者: 窦东阳赵英凯

作者单位: 南京工业大学自动化学院,南京 210009

会议类型: 国内会议

会议名称: 第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC”2007)

会议地点: 太原

会议语种:中文

页码: 10-12

在线出版日期: 2007-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于粗糙集的缺失数据填补技术研究