基于自适应距离度量的近似重复记录检测

摘要：

提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测。该方法使用最大熵分类器标注记录对中的对应字段的关联类型;然后根据每个宇段对的关联类型,为其选择合适的距离涵数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对。在不同领域的数据集上的实验结果表明,提出的方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力。

关键词：近似重复记录检测记录链接实体匹配数据集成

作者: 黄健斌姬红兵孙鹤立

作者单位: 西安电子科技大学电子工程学院陕西西安 710071 西安电子科技大学计算机学院陕西西安 710071 西安电子科技大学电子工程学院陕西西安 710071 西安交通大学计算机科学与技术系陕西西安 710049

会议类型: 国内会议

会议名称: 中国电子学会第十二届全国青年学术年会

会议地点: 西安

会议语种:中文

页码: 366-369,373

在线出版日期: 2006-09-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于自适应距离度量的近似重复记录检测