基于XPath的Web页面自动清洗算法
针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法。算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识别并消除更多相似页面中的噪声内容.实验结果证明了该清洗方法的有效性及准确性。
噪声内容 Web页面清洗 自动清洗 DOM 公共XPath
付艳 杨冬青 唐世渭 王腾蛟 高军
高可信软件技术教育部重点实验室(北京大学) 北京 100871 北京大学信息科学技术学院 北京 100871 北京师范大学信息科学与技术学院 北京 100875 高可信软件技术教育部重点实验室(北京大学) 北京 100871 北京大学信息科学技术学院 北京 100871
国内会议
桂林
中文
548-553
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)