基于XPath的Web页面自动清洗算法

摘要：

针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法。算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识别并消除更多相似页面中的噪声内容.实验结果证明了该清洗方法的有效性及准确性。

关键词：噪声内容 Web页面清洗自动清洗 DOM 公共XPath

作者: 付艳杨冬青唐世渭王腾蛟高军

作者单位: 高可信软件技术教育部重点实验室(北京大学) 北京 100871 北京大学信息科学技术学院北京 100871 北京师范大学信息科学与技术学院北京 100875 高可信软件技术教育部重点实验室(北京大学) 北京 100871 北京大学信息科学技术学院北京 100871

会议类型: 国内会议

会议地点: 桂林

会议语种:中文

页码: 548-553

在线出版日期: 2008-10-24（万方平台首次上网日期，不代表论文的发表时间）

会议专题