会议专题

一个面向大数据的文本近似查重框架

文本近似查重是判断一篇文档是否和指定文本集中的某篇文档内容近似的技术.它能应用于大数据开发利用所涉及的多个场景中,例如采集查重、搜索结果过滤、事件跟踪,以及论文抄袭检查、垃圾邮件过滤等,是文本处理领域研究的热点,近年来不断有新的近似查重算法提出,例如SimHash、MinHash、Winnowing.这些算法在不同的应用场景表现各有不同.本文旨在研究一个近似查重算法的框架,将多种算法整合其中.统一的框架一方面可以简化查重系统的开发和使用,满足大数据中异构数据对不同查重算法的需求;另一方面可以厘清不同查重算法的谱系,通过交叉组合进行算法的创新.

近似查重框架 文本处理 大数据时代 去重算法

蔡超 由凯

中国国防科技信息中心 北京市190信箱,北京 100142

国内会议

第二十七届全国计算机信息管理学术研讨会

吉林延吉

中文

36-39

2013-09-01(万方平台首次上网日期,不代表论文的发表时间)