基于WebDriver的定向网络爬虫技术的应用研究
当今时代的网络在内容和形态方面发生了深刻的变化,动态页面、AJAX异步传输技术、网页反爬虫技术的兴起,使得简单的网页数据抓取越来越困难。本文使用Python语言中优秀的、自动化测试库:selenium库,通过其中的WebDriver类实现模拟人类登录网页,抓取加载完毕后的网页信息。本爬虫由于模拟人类操作,可以绕过反爬虫检测,自动采集指定网页数据,达到数据获取的目的。对某个实际网站进行爬取实验的结果表明,利用本文的爬虫进行网页的采集取得了良好效果。
网络爬虫 网页解析 动态内容获取
周立恒 李陶深
广西大学计算机与电子信息学院,南宁,530004 广西高校并行与分布式计算技术重点实验室,南宁,530004
国内会议
北京
中文
16-20
2018-09-26(万方平台首次上网日期,不代表论文的发表时间)