会议专题

Igloo分布式爬虫系统的性能优化

Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布式的系统结构,通过有效的性能优化方法,如高速通信与优雅爬行的折中、URL Trie快速数据结构和基于”滞后合并”策略的URL数据库存取算法等,使系统能进行高性能的爬行,同时又不影响Web服务器和网络的正常运行.实验表明,Igloo具有高性能和稳定的特点.

Web爬虫 互联网 分布式系统 搜索引擎 数据库存取

叶允明 马范援 于水 张岭

上海交通大学计算机科学与工程系(上海)

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

1-8

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)