基于主题模型的文本集合相似性度量
针对2个文本集合的语义相似性度量问题,提出了一种新的主题模型——集合相似主题模型(collection similarity topic model,CSTM),基于文本集合的生成过程,综合考虑2个文本集合对主题生成的相互作用.给出了CSTM基于gibbs抽样的近似推断方法,并提出了新的文本集合相似性度量方法.实验表明,与传统LDA主题模型相比,CSTM收敛更快,perplexity指标更低,能更好地度量文本集合的整体相似性以及特定主题下的相似性.
文本集合 相似性度量 主题模型 语义特征
刘成昊 孙建伶
浙江大学计算机科学与工程学院 杭州 310027
国内会议
太原
中文
179-186
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)