会议专题

云环境中的近似复制文本检测

  如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分。在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担。针对云计算环境,提出了一种基于MapReduce的近似复制文本检测算法,它能够在给定的文本集合与相似度阈值条件下,经过过滤与验证操作后返回所有相似程度不低于该阈值的文本对。真实数据集上的实验结果表明,与现有工作相比,所提算法能更为高效地返回相似文本对,提高了总体性能。

海量数据 近似复制文本检测 算法优化 信息过滤

Xu Jun 许君 Wang Chaokun 王朝坤 Liu Lichao 刘立超 Wang Jianmin 王建民 Liu Zhang 刘璋

Department of Computer and Science, Tsinghua University, Beijing 100084; School of Software, Tsinghu 清华大学计算机科学与技术系 北京 100084;清华大学软件学院 北京 100084;清华信息科学与技术国家实验室(筹)(清华大学) 北京 100084;信息系统安全教育部重点实验室(清华大学) 北京 School of Software, Tsinghua University, Beijing 100084; Tsinghua National Laboratory for Informatio 清华大学软件学院 北京 100084;清华信息科学与技术国家实验室(筹)(清华大学) 北京 100084;信息系统安全教育部重点实验室(清华大学) 北京 100084

国内会议

第29届中国数据库学术会议

合肥

中文

329-335

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)