一种基于规则的消重方法
重复数据一直以来都是数据质量问题中比较具有挑战性的问题之一.尽管去除数据集中完全相同的数据很简单,但是大多数情况下,指代同一实体的重复数据有着不同的表示形式,去除这种重复数据是比较难而复杂的.现有的工作一般通过两种方法解决这一问题,要么通过给定的样本数据训练出分类器,要么基于数据的特性手动构造函数.提出了一个基于规则的方法,该方法能够将用户自定的函数转换成规则的形式,并且能够基于样本数据自动生成规则.实验证明方法在有效性和效率上都获得不错的结果.
重复数据 消重算法 规则理论
钟超玮 刘奇志 胡伟
计算机软件新技术国家重点实验室(南京大学) 南京210008
国内会议
太原
中文
317-324
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)