会议专题

基于查询聚类的排序学习算法

排序是信息检索中重要的环节。现如今,已经提出了几百种用于描述查询与文档之间相关度的特征,但是利用人工调整参数的方式将这几百种特征整合为一个排序函数的方法已经不切实际。因此,排序学习算法,一个机器学习与信息检索的交叉领域,越来越受到人们的重视,已经有很多种排序学习算法被设计并应用到优化排序函数。尽管在纷繁复杂的网络搜索环境中,查询之间确实存在着差异,然而,几乎没有排序学习算法考虑到查询差异的存在。在这篇论文中,查询被建模为多元高斯分布,查询之间距离利用KL距离计算。利用谱聚类对查询进行聚类,为每一个类别训练一个排序函数。实验结果表明经过聚类得到的排序函数需要较少的训练样例,但是它的性能却和没有经过聚类得到的排序函数是可比的,甚至超过后者。

信息检索 排序学习算法 排序函数 谱聚类算法

花贵春 张敏 刘奕群 马少平 茹立云

智能技术与系统国家重点实验室 清华信息科学与技术国家实验室(筹),清华大学计算机系,北京,100084

国内会议

第五届全国信息检索学术会议CCIR2009

上海

中文

350-357

2009-11-14(万方平台首次上网日期,不代表论文的发表时间)