会议专题

基于Low-IDF-SIG的句子重复检测

随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的拷贝检测正是解决这类问题的一个必要步骤。本文提出了一种有效并且快速的句子级别的特征抽取方法——Low-IDF-Sig算法,并基于该算法实现了一个可以高效地找出句子级别拷贝的检测系统。为了对本文提出的方法的精度及效率进行评测,我们还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的拷贝检测任务的效率和精度。

句子级别 拷贝检测 Low-IDF-SIG算法 句子重复检测 搜索引擎

俞昊旻 张玥 张奇 黄萱菁

复旦大学计算机科学与技术学院,上海市,201203

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

24-31

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)