基于自适应距离度量的近似重复记录检测
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测。该方法使用最大熵分类器标注记录对中的对应字段的关联类型;然后根据每个宇段对的关联类型,为其选择合适的距离涵数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对。在不同领域的数据集上的实验结果表明,提出的方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力。
近似重复记录检测 记录链接 实体匹配 数据集成
黄健斌 姬红兵 孙鹤立
西安电子科技大学电子工程学院 陕西西安 710071 西安电子科技大学计算机学院 陕西西安 710071 西安电子科技大学电子工程学院 陕西西安 710071 西安交通大学计算机科学与技术系 陕西西安 710049
国内会议
西安
中文
366-369,373
2006-09-01(万方平台首次上网日期,不代表论文的发表时间)