会议专题

基于Heritrix的web信息抽取优化与实现

  针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度。实验表明本文的优化技术可行。

多线程抓取 Heritrix技术 Web信息抽取 算法优化

吴伟 陈建峡

湖北工业大学计算机学院,湖北 武汉 430068

国内会议

湖北省机械工程学会机械设计与传动专委会暨武汉市机械设计与传动学会第20届学术年会

武汉

中文

23-26

2012-05-01(万方平台首次上网日期,不代表论文的发表时间)