会议专题

一种按需配置的Web文本信息定向抓取方法

本文提出一种模拟客户端HTTP请求定向获取web 文本并进一步加工以抓取所需数据的方法,以第二次提取数据的形式实施数据的重复利用.利用一个可以制定抓取页面内容并制定抓取页面保存结果的配置文件,通过HttpClient模拟用户对服务器页面的请求并利用HtmlParser 提取指定的DOM 结构,有针对性的对页面信息进行抓取和保存.

Web文本信息 定向抓取 数据过滤 DOM结构

徐山川 高万林 张树亮 卢帅州

中国农业大学信息与电气工程学院,北京,100083

国内会议

中国农业工程学会电气信息与自动化专委会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会

北京

中文

1-5

2010-10-29(万方平台首次上网日期,不代表论文的发表时间)