会议专题

一种高效的动态脚本网站有效页面获取方法

随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅通过点击“<a>”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,本文提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,我们通过实验证明我们方法的效率和性能.

动态脚本网站 获取方法 有效页面

夏冰 高军 王腾蛟 杨冬青

北京大学 信息科学技术学院,北京 100871

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

220-227

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)