开放文本无监督地理实体关系抽取
地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的重要形式,而地理信息则是有关地理实体的一切有用知识.随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS)领域发挥着重要的作用. 在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长加20%)。同时,在正确率相近的情况下,本文提出的改进的权值计算方法(时间复杂度O(w))的计算效率远高于基于信息熵的特征排序算法(时间复杂度O(w2c2))。此外,关系元组的重构保证了实体关系的语义表达的逻辑性,自适应的组织形式增强了地理实体间空间关系描述的完整性,有利于提升计算机对文本的理解和认知水平。
地理信息 中文文本 关键词 信息提取
余丽 陆锋 张恒才
中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京100101
国内会议
徐州
中文
2-4
2014-10-11(万方平台首次上网日期,不代表论文的发表时间)