面向文本拷贝检测的分布式索引

摘要：

如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时，随着文档集规模的增大，单机实现的索引已经不能满足拷贝检测的需求，需要引入分布式存储的索引进行拷贝检测。为了适应文档集规模的不断增大，好的分布式索引应该同时具备良好的效率和可扩展性。为此本文比较了两种不同的分布式索引结构（Term-based索引和Doc-based索引）。并且给出了Map-Reduce范式下建立这两种索引的实现，以及以这两种索引为基础的文本拷贝检测方法（Term-based方法和Doc-based方法）。通过在WT10G文档集上进行实验，本文对两种方法的性能进行了比较。实验表明Doc-based方法具有更好的效率和可扩展性。

关键词：拷贝检测重复检测 Map-Reduce 分布式索引

作者: 张玥俞昊旻张奇黄萱菁

作者单位: 复旦大学计算机科学技术学院,上海市 201203

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 104-113

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向文本拷贝检测的分布式索引