基于Heritrix的web信息抽取优化与实现
针对Heritrix抓取速度很慢的问题,运用ELFHash算法对Heritrix进行了多线程的优化,增加爬取线程数,实现了对指定网页精确的抓取,从而提高网页抓取的速度。实验表明本文的优化技术可行。
多线程抓取 Heritrix技术 Web信息抽取 算法优化
吴伟 陈建峡
湖北工业大学计算机学院,湖北 武汉 430068
国内会议
湖北省机械工程学会机械设计与传动专委会暨武汉市机械设计与传动学会第20届学术年会
武汉
中文
23-26
2012-05-01(万方平台首次上网日期,不代表论文的发表时间)