基于主题模型的文本集合相似性度量

摘要：

针对2个文本集合的语义相似性度量问题,提出了一种新的主题模型——集合相似主题模型(collection similarity topic model,CSTM),基于文本集合的生成过程,综合考虑2个文本集合对主题生成的相互作用.给出了CSTM基于gibbs抽样的近似推断方法,并提出了新的文本集合相似性度量方法.实验表明,与传统LDA主题模型相比,CSTM收敛更快,perplexity指标更低,能更好地度量文本集合的整体相似性以及特定主题下的相似性.

关键词：文本集合相似性度量主题模型语义特征

作者: 刘成昊孙建伶

作者单位: 浙江大学计算机科学与工程学院杭州 310027

会议类型: 国内会议

会议名称: 第31届中国数据库学术会议

会议地点: 太原

会议语种:中文

页码: 179-186

在线出版日期: 2014-09-19（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于主题模型的文本集合相似性度量