会议专题

基于HtmlParser网页解析技术的信息提取实践

HtmlParser是一个对现有的HTML进行分析的快速实时的解析器,基于该技术对网页进行解析,可抽取标签间的link、image和title等信息,具有提取速度快,出错率低等优点.本文系统地介绍了HtmlParser技术在《基于百度搜索引擎的舆情信息搜索系统》中的应用,本系统通过解析网页源码,实现了大庆吧、大庆油田吧及天涯论坛等16个网站的信息收集,达到了自动搜取舆情信息、减轻工作量的目的,同时也避免了人工收集信息易出现遗漏的问题.

网页解析 信息提取 检索效率

刘小野

大庆油田有限责任公司第二采油厂信息中心,163000

国内会议

第二届中国石油石化产业“互联网+”应用发展大会

宁波

中文

113-115

2016-08-01(万方平台首次上网日期,不代表论文的发表时间)