会议专题

地理数据文本库上Top-k模糊查询技术研究

随着社交网络变得日益普及,互联网上生成的数据越来越多地与地理信息联系起来,包括带有地理标签的微博、社交网络的登录信息以及信息点(POIs).根据报告显示,53%的移动搜索以及20%的谷歌搜索与地理位置相关.同时越来越多的研究开始关注如何对这些带有地理信息的数据进行有效地检索.现有的方法是对这些带有地理标签的数据进行关键字的匹配,但这种匹配仅局限于精确的匹配,不能支持模糊查询.当用户由于疏忽而键入错误的查询关键字时,系统可能按照错误的输入而输出错误的结果.基于这种情况,对Top-k关键字模糊查询进行研究:给定一组带有地理信息以及文本信息的数据(地理文本对象),检索出与查询关键字相关性最大的k个数据.首先定义相关性函数,综合考虑关键字匹配程度以及距离因素,数字化地计算出数据与查询的相关性.并基于一种”棋盘”索引结构,以查询产生的地点为起点,向四周扩散地检索数据.理论分析和实验结果表明,该方法可以快速有效地处理地理数据文本库上的Top-k模糊查询,并具有良好的可扩展性.

地理数据文本库 模糊查询 关键字 索引结构

李佳宁 王宏志 高宏 李建中

哈尔滨工业大学计算机学院 哈尔滨 150001

国内会议

第31届中国数据库学术会议

太原

中文

110-117

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)