基于权重标准化SimRank方法的查询扩展技术研究
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。本文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank 方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank 算法的计算复杂度,本文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC 标准数据集上的实验表明,本文的方法可以有效地选择相关扩展词。MAP 指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。
搜索引擎 查询扩展 查询日志 SimRank 权重标准化
马云龙 林鸿飞
大连理工大学信息检索研究室,大连,116024
国内会议
黑龙江镜泊湖
中文
183-190
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)