基于版权信息的新闻网页去重算法

摘要：

搜索引擎对互联网上的网页进行检索，由于存在大量的重复网页，不但加重了用户检索和阅读的负担，而且浪费了大量的存储资源，需要去掉这些重复的网页，以达到更高的采集效率。在分析现有的去重算法基础上，利用转载的新闻网页大多会标出其来源、出处这一特征，并结合文本内容，对重复网页进行去重。算法大大减少了同页文档之前相互比较的次数，更适合海量空间网页的去重，通过实验验证了该算法具有很高的正确率和召回率。

关键词：搜索引擎版权网页去重布尔模型

作者: 杨邵玉梁正友

作者单位: 广西大学计算机与电子信息学院南宁 530004

会议类型: 国内会议

会议名称: 中国计算机用户协会网络应用分会2008年网络新技术与应用研讨会

会议地点: 青岛

会议语种:中文

页码: 124-126

在线出版日期: 2008-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于版权信息的新闻网页去重算法