会议专题

基于主题模型的文本集合相似性度量

针对2个文本集合的语义相似性度量问题,提出了一种新的主题模型——集合相似主题模型(collection similarity topic model,CSTM),基于文本集合的生成过程,综合考虑2个文本集合对主题生成的相互作用.给出了CSTM基于gibbs抽样的近似推断方法,并提出了新的文本集合相似性度量方法.实验表明,与传统LDA主题模型相比,CSTM收敛更快,perplexity指标更低,能更好地度量文本集合的整体相似性以及特定主题下的相似性.

文本集合 相似性度量 主题模型 语义特征

刘成昊 孙建伶

浙江大学计算机科学与工程学院 杭州 310027

国内会议

第31届中国数据库学术会议

太原

中文

179-186

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)