一种改进的T-Spider分布式爬虫
为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型。该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性。通过实验结果分析,验证了该方法的有效性。
网络爬虫 分布式爬虫模型 改进算法 页面切割
金凡 顾进广
武汉科技大学计算机科学与技术学院,湖北 武汉 430065 武汉科技大学计算机科学与技术学院,湖北 武汉 430065 东南大学计算机科学与工程学院,江苏 南京 210096
国内会议
湖北恩施
中文
102-104
2011-08-16(万方平台首次上网日期,不代表论文的发表时间)