CELM:基于交叉熵的文本检索模型

摘要：

本文对文本检索中的查询生成模型进行了扩展,提出一种基于交叉熵(Cross-Entropy)的CELM检索模型.通过统计语言建模技术,CELM模型把用户的信息需求和文档集中的每篇文档表示成词项(term)上的一个概率分布,分别称为用户信息需求语言模型和文档语言模型,然后根据这两个概率分布的交叉熵来对文档集中的文档进行排名.CELM检索模型把用户的信息需求直接引入到模型中,有效地解决了实际应用系统中信息需求与查询之间的不匹配问题.

关键词： CELM 信息检索交叉熵统计语言模型

作者: 丁国栋王斌

作者单位: 中国科学院计算技术研究所,北京,100080

会议类型: 国内会议

会议名称: 中国科学院计算技术研究所第八届计算机科学与技术研究生学术讨论会

会议地点: 大连

会议语种:中文

页码: 87

在线出版日期: 2004-07-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

CELM:基于交叉熵的文本检索模型