基于HtmlParser网页解析技术的信息提取实践
HtmlParser是一个对现有的HTML进行分析的快速实时的解析器,基于该技术对网页进行解析,可抽取标签间的link、image和title等信息,具有提取速度快,出错率低等优点.本文系统地介绍了HtmlParser技术在《基于百度搜索引擎的舆情信息搜索系统》中的应用,本系统通过解析网页源码,实现了大庆吧、大庆油田吧及天涯论坛等16个网站的信息收集,达到了自动搜取舆情信息、减轻工作量的目的,同时也避免了人工收集信息易出现遗漏的问题.
网页解析 信息提取 检索效率
刘小野
大庆油田有限责任公司第二采油厂信息中心,163000
国内会议
宁波
中文
113-115
2016-08-01(万方平台首次上网日期,不代表论文的发表时间)