基于协议驱动与事件驱动的综合聚焦爬虫研究
Ajax技术随着Web2.0应用的流行而日趋普及.由于其异步传输特性,传统聚焦爬虫往往无法得到异步加载的页面内容.针对应用了异步传输和JavaScript技术的新闻网站及评论,本文采用模拟浏览的方式,以事件驱动聚焦爬虫,监听页面内容的不断变化,获取异步传输的内容.在此基础上,本文提出并构建了基于协议驱动与事件驱动综合的聚焦爬虫框架,以保证在传统聚焦爬虫正常爬行的前提下,对页面中的Ajax内容采用事件驱动爬行。实验证明该方法是有效的.
聚焦爬虫 协议驱动 事件驱动 Ajaz技术 JavaScript技术
袁小节 周斌
国防科学技术大学 计算机学院 湖南 长沙 410073
国内会议
北京
中文
136-144
2009-07-01(万方平台首次上网日期,不代表论文的发表时间)