面向中文文本的地理信息资源挖掘与利用

摘要：

本研究针对中文文本中地理信息描述的非结构化、定性化和不确定性等特点，通过系统分析地理信息的自然语言描述机制，围绕“规范化一结构化一时空化”的技术主线，重点突破了面向中文文本的地理信息资源挖掘与利用技术。首先，通过归纳总结中文文本中地理信息资源描述的语言特征和语义结构，设计了面向自然语言的地理信息表达框架和标注体系，基于GATE平台构建了大规模的地理信息标注语料库。其次，分别提出了时间、空间、属性等地理信息的信息抽取和语义解析模型，实现了基于规则模型的时间信息抽取、推理和规范化表达，基于条件随机场模型和规则模型的空间位置（包括地名和空间关系）信息抽取方法，以及基于Boot strapping的属性信息抽取算法，并以标注语料库为实验数据进行了相关实验分析。再其次，提出了基于时间地理学理论的定性时空信息（地名、空间关系和时间信息）的匹配和可视化表达方法，探索了基于“时间一空间一概念类型”多重一致性约束的主题判断和时空过程重构方法。最后，在上述研究成果基础上，进行了相关案例应用分析，包括面向网络文本的事件时空和属性挖掘和网络地理要素更新检测。研究表明，通过借鉴自然语言处理、地理信息科学和人工智能等领域的先进成果，能够较为有效地解决中文文本中地理信息资源挖掘与利用问题，形成地理信息资源获取的新型手段，提升我国地理信息资源挖掘与利用的智能化水平，为地理信息产业化发展提供数据和技术支撑，拓宽地理信息资源的应用领域。

关键词：地理信息中文文本数据挖掘语言特征语义结构

作者: 张雪英王曙张春菊

作者单位: 南京师范大学虚拟地理环境教育部重点实验室,南京,210023 合肥工业大学土木与水利工程学院,合肥,230001

会议类型: 国内会议

会议名称: 中国地理信息科学2014学术年会

会议地点: 徐州

会议语种:中文

页码: 32-32

在线出版日期: 2014-10-11（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向中文文本的地理信息资源挖掘与利用