会议专题

一种主动发现地理信息服务的网络爬虫

泛在网络环境下地理信息服务的搜索对于地理信息资源的集成与共享具有重要意义.网络上分布着大量的地理信息服务,但用户无法快速检索到所需的服务.目前主流的两种服务查找方式均存在不足:地理信息门户的资源时效性差,元数据不完整;通用的搜索引擎查找地理信息服务的效率低下,地理信息服务通常淹没于大量无关的网页. 本文提出了一种基于链接排序和网页相关度的地理信息服务网络爬虫。该爬虫专门针对地理信息服务的协议和接口设计主题模板,通过计算特征向量间的余弦相似度的方法分析网页与主题的相关度,过滤与主题无关的网页;并利用链接与服务关键词的匹配程度确定链接的爬行优先级,提高发现服务的效率。 本文设计并实现了上述爬虫的原型系统,以OGC WMS服务作为实验对象。其主要组件包括链接探测模块、网页相关度计算模块、WMS解析模块、页面解析模块和元数据自动注册模块。 实验表明,本文提出的爬虫在发现服务的效率和抓取准确率上均取得了良好的效果。由于OGC Web Service的其他服务的协议和接口与WMS存在很大的相似性,因此可以将该爬虫策略应用于其他OWS服务的搜索,甚至可用于其他格式的地理信息资源的检索。

计算机网络 地理信息服务 网络爬虫 检索性能

沈平

武汉大学测绘遥感信息工程国家重点实验室

国内会议

中国地理信息科学2014学术年会

徐州

中文

5-5

2014-10-11(万方平台首次上网日期,不代表论文的发表时间)