会议专题

基于WebDriver的定向网络爬虫技术的应用研究

  当今时代的网络在内容和形态方面发生了深刻的变化,动态页面、AJAX异步传输技术、网页反爬虫技术的兴起,使得简单的网页数据抓取越来越困难。本文使用Python语言中优秀的、自动化测试库:selenium库,通过其中的WebDriver类实现模拟人类登录网页,抓取加载完毕后的网页信息。本爬虫由于模拟人类操作,可以绕过反爬虫检测,自动采集指定网页数据,达到数据获取的目的。对某个实际网站进行爬取实验的结果表明,利用本文的爬虫进行网页的采集取得了良好效果。

网络爬虫 网页解析 动态内容获取

周立恒 李陶深

广西大学计算机与电子信息学院,南宁,530004 广西高校并行与分布式计算技术重点实验室,南宁,530004

国内会议

第28届全国计算机新科技与教育学术会议

北京

中文

16-20

2018-09-26(万方平台首次上网日期,不代表论文的发表时间)