一种按需配置的Web文本信息定向抓取方法

摘要：

本文提出一种模拟客户端HTTP请求定向获取web 文本并进一步加工以抓取所需数据的方法,以第二次提取数据的形式实施数据的重复利用.利用一个可以制定抓取页面内容并制定抓取页面保存结果的配置文件,通过HttpClient模拟用户对服务器页面的请求并利用HtmlParser 提取指定的DOM 结构,有针对性的对页面信息进行抓取和保存.

关键词： Web文本信息定向抓取数据过滤 DOM结构

作者: 徐山川高万林张树亮卢帅州

作者单位: 中国农业大学信息与电气工程学院,北京,100083

会议类型: 国内会议

会议名称: 中国农业工程学会电气信息与自动化专委会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会

会议地点: 北京

会议语种:中文

页码: 1-5

在线出版日期: 2010-10-29（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种按需配置的Web文本信息定向抓取方法