一种基于N-Gram的检测相似重复记录的高效方法

摘要：

如何消除数据库中的重复信息已成为数据质量研究中的一个热门话题。该文提出了一种基于Ｎ－Ｇｒａｍ的检测相似重复记录的方法，主要工作有：（１）给出了一种高效的基于Ｎ－Ｇｒａｍ的聚类算法，该算法能适应常见的拼写错误如插入、删除、替换、效换等，复杂度为０（Ｎ）；（２）介绍了一种高效的应用无关的Ｐａｉｒｗｉｓｅ比较算法，复杂度为０（Ｋ〈’２〉）；（３）采用了一种改进的优先队列算法来准确地聚类相似重复记录。

关键词： N-Gram RNGN pairwise 聚类优先队列

作者: 邱越峰田增平周傲英

作者单位: 大学计算机系(上海)

会议类型: 国内会议

会议名称: 第十六届全国数据库学术会议

会议地点: 兰州

会议语种:中文

页码: 255～261

在线出版日期: 1999-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于N-Gram的检测相似重复记录的高效方法