会议专题

Heritrix网页抓取器的分析与扩展

  本文利用Heritrix开源和组件特性,讨论藏文网页的抓取问题。首先介绍了Heritrix网络爬虫的体系架构,然后开发了网页抓取扩展的算法。

信息处理 网络爬虫 体系架构 扩展算法

珠杰 顿珠次仁

西藏大学工学院计算机系

国内会议

第十二届全国少数民族语言文字信息处理学术研讨会

拉萨

中文

301-308

2009-07-10(万方平台首次上网日期,不代表论文的发表时间)