会议专题

基于分布式网络爬虫的Web空间数据获取方法研究

随着大数据时代的来临,互联网上空间数据的来源越来越多、规模越来越大、更新速度越来越快,采用单机网络爬虫获取Web空间数据由于受到抓取覆盖率和抓取时间性能瓶颈的限制,难以保证抓取数据的及时性和全面性.因此本文研究了基于分布式网络爬虫的Web空间数据获取方法,不是通过增加单个爬虫系统的负荷而是通过增加更多的爬虫系统成员来提高数据获取的性能和效率.同时设计和实现了基于分布式网络爬虫的Web空间数据获取原型系统,通过对原型系统进行测试证实了本文所述方法的有效性.

Web空间数据 获取方法 分布式网络爬虫

曾李阳 齐华 任春雷 张尧

西南交通大学地球科学与环境工程学院,四川成都,611756;四川省基础地理信息中心,四川成都610041 西南交通大学地球科学与环境工程学院,四川成都,611756 四川省基础地理信息中心,四川成都610041

国内会议

2016中国地理信息科学理论与方法学术年会

深圳

中文

1-12

2016-09-23(万方平台首次上网日期,不代表论文的发表时间)