面向情报获取的主题采集工具设计与实现
面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现了一套主题采集工具.采集工具由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成,其中URL分析与提取采用了基于链接类型的URL筛选方法,实现正文网页URL的筛选,模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取.实验结果表明,工具所采用的方法采集准确率较高,能够适应目前情报信息采集的需求.
企业管理 竞争情报 信息获取 主题采集工具 系统设计
谷俊 周群芳
上海宝山钢铁股份有限公司 上海 201900
国内会议
北京
中文
237-249
2014-10-28(万方平台首次上网日期,不代表论文的发表时间)