基于Heritrix聚焦爬虫的特定语料采集系统设计

目前,语料在各项研究中发挥着重要作用,现在的语科采集方法还不能满足需要.本文提出了一种新的语料采集方法,可以准确迅速的采集特定领域语料.通过修改Heritrix开源爬虫的组件,引入了APHash算法,解决爬虫队列平均分配问题,提高了采集效率,并通过加入URL判断条件,实现了特定领域语料的采集.对采集内容使用开用工具Tika进行解析,通过大规模采集,可以形成语料库,实现了特定语料的采集.
语料采集 系统设计 网络爬虫 Heritrix程序
何洋 番光强
国防科技大学计算机学院,湖南省长沙市4100001 国防科技大学计算机学院,湖南省长沙市410000
国内会议
2013年第四届全国通信新理论与新技术学术大会CTC2013
北京
中文
127-132
2014-01-01(万方平台首次上网日期,不代表论文的发表时间)