会议专题

基于版权信息的新闻网页去重算法

搜索引擎对互联网上的网页进行检索,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,需要去掉这些重复的网页,以达到更高的采集效率。在分析现有的去重算法基础上,利用转载的新闻网页大多会标出其来源、出处这一特征,并结合文本内容,对重复网页进行去重。算法大大减少了同页文档之前相互比较的次数,更适合海量空间网页的去重,通过实验验证了该算法具有很高的正确率和召回率。

搜索引擎 版权 网页去重 布尔模型

杨邵玉 梁正友

广西大学计算机与电子信息学院 南宁 530004

国内会议

中国计算机用户协会网络应用分会2008年网络新技术与应用研讨会

青岛

中文

124-126

2008-10-01(万方平台首次上网日期,不代表论文的发表时间)