CCDet:一种高效的大规模中文重复网页检测方法

摘要：

重复文档检测是信息检索领域中一个非常重要的问题.由于网页结构和内容的复杂性,现有方法在网页查重上没有达到很好的准确性,且只有少量工作用于处理包含关系网页检测问题;同时,由于网页数量的巨大,重复网页检测处理时需要考虑大规模数据的并行化算法.提出一种基于句号特征的大规模重复中文网页检测方法CCDet.CCDet采用了一种基于中文句号特征来完成重复文档的相似性比对方法,与现有的主要重复网页检测算法相比,CCDet大幅提高了检测具有重复关系网页和具有包含关系网页的准确性,并拥有较高的检测效率.同时,为了适应大规模新闻网页的查重处理,使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测.实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性.

关键词：中文网页检测大规模重复文档 CCDet算法性能评价

作者: 韦永壮袁春风黄宜华

作者单位: 南京大学计算机科学与技术系南京 210046

会议类型: 国内会议

会议名称: 中国计算机学会第一届CCF大数据学术会议

会议地点: 北京

会议语种:中文

页码: 140-152

在线出版日期: 2013-12-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

CCDet:一种高效的大规模中文重复网页检测方法