基于Nutch的Web网站定向采集系统
对WEB上特定领域科技信息的采集,是进行网络特定学科领域科技发展态势监测的一项重要工作。本文在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出了基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行了重点探讨。 实验结果证明,该系统能够实现对英文网站科技信息进行有效的定向采集,为后续工作的开展提供较高质量的处理语料。
网站定向采集系统 网站抓取 网页去噪 开源软件
徐健 张智雄
中国科学院国家科学图书馆 北京 100080 中山大学资讯管理系 广州 510275 中国科学院国家科学图书馆 北京 100080
国内会议
第二届“数字图书馆与开放源码软件(DLIB & OSS 2009)”学术研讨会
北京
中文
83-92
2009-03-11(万方平台首次上网日期,不代表论文的发表时间)