基于LDA主题模型的分布式信息检索集合选择方法
针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法.该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;接着,用基于关键词相关度和基于主题相关度结合的方法估计查询与样本集中文档的综合相关度;最后,通过样本集文档所属的集合信息,估计查询与各集合的相关度,进而选择相关度最高的M个集合进行检索.实验部分采用RmP@n和MAP作为评价指标对集合选择方法的性能进行了验证.实验结果表明本文提出方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。
信息检索 数据集合 评价指标 LDA主题模型
何旭峰 陈岭 陈根才 钱坤 吴勇 王敬昌
浙江大学计算机科学与技术学院, 杭州中国310027 浙江鸿程计算机系统有限公司, 杭州中国310009
国内会议
北京
中文
1-9
2014-12-01(万方平台首次上网日期,不代表论文的发表时间)