会议专题

基于Nutch的Web网站定向采集系统

对WEB上特定领域科技信息的采集,是进行网络特定学科领域科技发展态势监测的一项重要工作。本文在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出了基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行了重点探讨。 实验结果证明,该系统能够实现对英文网站科技信息进行有效的定向采集,为后续工作的开展提供较高质量的处理语料。

网站定向采集系统 网站抓取 网页去噪 开源软件

徐健 张智雄

中国科学院国家科学图书馆 北京 100080 中山大学资讯管理系 广州 510275 中国科学院国家科学图书馆 北京 100080

国内会议

第二届“数字图书馆与开放源码软件(DLIB & OSS 2009)”学术研讨会

北京

中文

83-92

2009-03-11(万方平台首次上网日期,不代表论文的发表时间)