基于Low-IDF-SIG的句子重复检测

摘要：

随着互联网上数据的爆炸式的增长，互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别，这些方法不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的拷贝检测正是解决这类问题的一个必要步骤。本文提出了一种有效并且快速的句子级别的特征抽取方法——Low-IDF-Sig算法，并基于该算法实现了一个可以高效地找出句子级别拷贝的检测系统。为了对本文提出的方法的精度及效率进行评测，我们还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的拷贝检测任务的效率和精度。

关键词：句子级别拷贝检测 Low-IDF-SIG算法句子重复检测搜索引擎

作者: 俞昊旻张玥张奇黄萱菁

作者单位: 复旦大学计算机科学与技术学院,上海市,201203

会议类型: 国内会议

会议名称: 第六届全国信息检索学术会议

会议地点: 黑龙江镜泊湖

会议语种:中文

页码: 24-31

在线出版日期: 2010-08-12（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于Low-IDF-SIG的句子重复检测