会议专题

基于关键词的深度万维网数据库选择

  本文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库。这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成。文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词—领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词—属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库—查询的相关性模型中,最终解决深度万维网的数据库选择问题。在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果。

深度万维网 关键词查询 领域属性 相关性模型 数据库选择

范举 周立柱

清华大学计算机科学与技术系 北京100084

国内会议

第28届中国数据库学术会议

上海

中文

1797-1804

2011-10-21(万方平台首次上网日期,不代表论文的发表时间)