基于MapReduce框架的近似复制文本检测
海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测。提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对。在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对。
MapReduce框架 近似复制文本检测 文本数据
李瑞 王朝坤 郑伟 王建民 王伟平
清华大学软件学院,北京,100084;清华信息科学与技术国家实验室(筹)(清华大学),北京,100084;信息系统安全教育部重点实验室(清华大学),北京,100084 中国科学院计算技术研究所国家智能计算机研究开发中心,北京,100190
国内会议
北京
中文
400-406
2010-10-13(万方平台首次上网日期,不代表论文的发表时间)