会议专题

核情报垂直搜索引擎设计与实现

互联网情报搜集工作一直都是情报人员工作的一项重点,随着互联网上信息日新月异的爆炸式增长,通用搜索引擎所需要采集、索引和查询的内容越来越多,海量数据资源给情报工作带来巨大效益和便利的同时,也带来了巨大的信息冗余,如何更加快速、准确、详细地获得专业资源,逐渐成为目前信息挖掘领域的热点.因此,面向专业主题的垂直搜索引擎系统应运而生;本文首先介绍了垂直搜索实现的关键技术.其次,基于核情报行业,采用从专业资料提取和领域专家建议的方式构建了一个核情报主题词库,为后续的分词,主题相关性判断以及建立索引提供了支持.再次,设计并实现了一个核情报垂直搜索引擎,给出了系统的总体结构图.整个系统的实现采用了开源网络爬虫ncrawler来抓取核主题相关的网页信息,利用Lucene.Net开源的搜索引擎框架为系统提供快速、全面的全文索引和检索服务.最后,对系统进行测试,将搜索结果与Google、百度的搜索结果进行了比较.实验证明,该系统主题相关度达到94%以上.相对于其他通用引擎,本系统具有明显的优越性.

核情报 搜索引擎 软件开发 信息挖掘

张敏 吴健蕾 陈利羽 宋亚峰 樊火生

核工业计算机应用研究所,北京100048

国内会议

中国核学会2015年学术年会

四川绵阳

中文

7-12

2015-09-21(万方平台首次上网日期,不代表论文的发表时间)