会议专题

基于记录相似度估计的高效重复记录检测算法

信息集成过程中出现的重复记录的存在为数据处理和分析带来了困难。重复记录检测已经成为当前数据库研究中的热点问题之一。基于二分图最优匹配的重复记录检测算法具有考虑到模式异构,支持多种数据类型等特点,适用于信息集成中的重复记录检测。然而,这种方法的不足之处在于其需要较大的时间开销,且由于其分类要求严苛,使得算法召回率受到影响.本文针对基于二分图最优匹配的方法存在的两个问题,基于编辑距离满足三角不等式以及记录相似度和属性相似度满足线性关系这两个性质,提出了一种基于记录相似度估计的高效重复记录检测算法,弥补了原始算法的两个缺点。理论分析和实验结果都表明了本文提出方法的正确性和有效性。

异构记录 重复检测 记录相似度 信息集成 数据类型

李默涵 王宏志 李建中 高宏

哈尔滨工业大学 计算机科学与技术学院,哈尔滨 150001

国内会议

2009中国计算机大会

天津

中文

682-695

2009-10-23(万方平台首次上网日期,不代表论文的发表时间)