基于全信息的网络文本信息去重算法研究

摘要：

Web上存在着大量内容相同的页面,网络重复信息的有效去除已成为改善Web信息采集系统性能的关键技术之一.本文将全信息理论应用到网络文本信息去重算法的研究中,提出了一种新颖的页面去重算法.该算法的基本思想是使用文档的关键词序列来描述文本的结构特征(语法信息)和内涵特征(语义信息),通过比较文档的关键词序列的重叠度,判断这两篇文档是否存在信息重复现象.实验证明,该算法可以在显著提高抵抗文档噪声能力的同时,大大减少将相似文档误判为相同文档的机会.

关键词：去重算法全信息关键词序列文本信息

作者: 李卫刘建毅王枞

作者单位: 北京邮电大学智能科学技术研究中心,100876

会议类型: 国内会议

会议名称: 第十一届中国人工智能学术年会

会议地点: 武汉

会议语种:中文

页码: 1276-1281

在线出版日期: 2005-09-20（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于全信息的网络文本信息去重算法研究