会议专题

基于Labeled-LDA模型的文本分类新算法

Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能:在复且中文语料库上micro_F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro_F1提高约3%。

文本分类 图模型 隐含狄利克雷分配 变分推断

李文波 孙乐 黄瑞红 冯元勇 张大鲲

中国科学院软件研究所,北京 100080;中国科学院研究生院,北京 100049 中国科学院软件研究所,北京 100080

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

110-116

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)