基于全信息的网络文本信息去重算法研究
Web上存在着大量内容相同的页面,网络重复信息的有效去除已成为改善Web信息采集系统性能的关键技术之一.本文将全信息理论应用到网络文本信息去重算法的研究中,提出了一种新颖的页面去重算法.该算法的基本思想是使用文档的关键词序列来描述文本的结构特征(语法信息)和内涵特征(语义信息),通过比较文档的关键词序列的重叠度,判断这两篇文档是否存在信息重复现象.实验证明,该算法可以在显著提高抵抗文档噪声能力的同时,大大减少将相似文档误判为相同文档的机会.
去重算法 全信息 关键词序列 文本信息
李卫 刘建毅 王枞
北京邮电大学智能科学技术研究中心,100876
国内会议
武汉
中文
1276-1281
2005-09-20(万方平台首次上网日期,不代表论文的发表时间)