基于WebDriver的定向网络爬虫技术的应用研究

摘要：

　　当今时代的网络在内容和形态方面发生了深刻的变化，动态页面、AJAX异步传输技术、网页反爬虫技术的兴起，使得简单的网页数据抓取越来越困难。本文使用Python语言中优秀的、自动化测试库：selenium库，通过其中的WebDriver类实现模拟人类登录网页，抓取加载完毕后的网页信息。本爬虫由于模拟人类操作，可以绕过反爬虫检测，自动采集指定网页数据，达到数据获取的目的。对某个实际网站进行爬取实验的结果表明，利用本文的爬虫进行网页的采集取得了良好效果。

关键词：网络爬虫网页解析动态内容获取

作者: 周立恒李陶深

作者单位: 广西大学计算机与电子信息学院,南宁,530004 广西高校并行与分布式计算技术重点实验室,南宁,530004

会议类型: 国内会议

会议名称: 第28届全国计算机新科技与教育学术会议

会议地点: 北京

会议语种:中文

页码: 16-20

在线出版日期: 2018-09-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于WebDriver的定向网络爬虫技术的应用研究