基于MapReduce框架的近似复制文本检测

摘要：

海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测。提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对。在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对。

关键词： MapReduce框架近似复制文本检测文本数据

作者: 李瑞王朝坤郑伟王建民王伟平

作者单位: 清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084 中国科学院计算技术研究所国家智能计算机研究开发中心,北京,100190

会议类型: 国内会议

会议地点: 北京

会议语种:中文

页码: 400-406

在线出版日期: 2010-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题