面向文本拷贝检测的分布式索引
如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引进行拷贝检测。为了适应文档集规模的不断增大,好的分布式索引应该同时具备良好的效率和可扩展性。为此本文比较了两种不同的分布式索引结构(Term-based索引和Doc-based索引)。并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法(Term-based方法和Doc-based方法)。通过在WT10G文档集上进行实验,本文对两种方法的性能进行了比较。实验表明Doc-based方法具有更好的效率和可扩展性。
拷贝检测 重复检测 Map-Reduce 分布式索引
张玥 俞昊旻 张奇 黄萱菁
复旦大学计算机科学技术学院,上海市 201203
国内会议
黑龙江镜泊湖
中文
104-113
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)