一个面向大数据的文本近似查重框架

摘要：

文本近似查重是判断一篇文档是否和指定文本集中的某篇文档内容近似的技术.它能应用于大数据开发利用所涉及的多个场景中,例如采集查重、搜索结果过滤、事件跟踪,以及论文抄袭检查、垃圾邮件过滤等,是文本处理领域研究的热点,近年来不断有新的近似查重算法提出,例如SimHash、MinHash、Winnowing.这些算法在不同的应用场景表现各有不同.本文旨在研究一个近似查重算法的框架,将多种算法整合其中.统一的框架一方面可以简化查重系统的开发和使用,满足大数据中异构数据对不同查重算法的需求；另一方面可以厘清不同查重算法的谱系,通过交叉组合进行算法的创新.

关键词：近似查重框架文本处理大数据时代去重算法

作者: 蔡超由凯

作者单位: 中国国防科技信息中心北京市190信箱,北京 100142

会议类型: 国内会议

会议名称: 第二十七届全国计算机信息管理学术研讨会

会议地点: 吉林延吉

会议语种:中文

页码: 36-39

在线出版日期: 2013-09-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一个面向大数据的文本近似查重框架