会议专题

一种改进的T-Spider分布式爬虫

  为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型。该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性。通过实验结果分析,验证了该方法的有效性。

网络爬虫 分布式爬虫模型 改进算法 页面切割

金凡 顾进广

武汉科技大学计算机科学与技术学院,湖北 武汉 430065 武汉科技大学计算机科学与技术学院,湖北 武汉 430065 东南大学计算机科学与工程学院,江苏 南京 210096

国内会议

2011全国开放式分布与并行计算学术年会

湖北恩施

中文

102-104

2011-08-16(万方平台首次上网日期,不代表论文的发表时间)