Heritrix网页抓取器的分析与扩展
本文利用Heritrix开源和组件特性,讨论藏文网页的抓取问题。首先介绍了Heritrix网络爬虫的体系架构,然后开发了网页抓取扩展的算法。
信息处理 网络爬虫 体系架构 扩展算法
珠杰 顿珠次仁
西藏大学工学院计算机系
国内会议
拉萨
中文
301-308
2009-07-10(万方平台首次上网日期,不代表论文的发表时间)
信息处理 网络爬虫 体系架构 扩展算法
珠杰 顿珠次仁
西藏大学工学院计算机系
国内会议
拉萨
中文
301-308
2009-07-10(万方平台首次上网日期,不代表论文的发表时间)