带数据清洗功能的数据预处理系统PW-ETL的设计与实现
本文在数据预处理过程中引入了数据清洗策略,该数据清洗策略的创新之处主要有两点,此清洗策略对原有查找重复记录的算法扩展到能够进行数字型数据的相似度计算;利用代数中的函数关系和相关关系的方法对数据之间的关系进行分析,将不符合规律的数据与正确数据分离。
数据预处理 ETL 数据清洗 数据仓库 相似度计算
肖英治 陈红
中国人民大学数据与知识工程研究所,北京,100872 教育部数据仓库与商务智能工程研究中心,北京,100872
国内会议
厦门
中文
433-438
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)