基于LDA的社科文献主题建模方法

摘要：

　　随着互联网的发展，文本分类和主题提取的应用越来越广泛，而主题模型在文本主题提取中起着很大的作用.LDA(latent Dirichlet allocation)模型是一种应用非常广泛且很成熟的主题模型，也是一个概率生成模型，可以很好地解决多词一义和一词多义的问题.但是当利用LDA 模型对社科文献领域类的文档集进行主题建模时，由于该建模方法忽略了文档集自身的主题特点，提取的主题分布是偏向文档中高频词汇，所以造成最后提取的主题偏离文档的本质意义上的主题、结果不够准确.针对LDA 模型对文档进行主题建模的过程，结合社科文献领域的文档特点，对主题建模的过程进行相应的改进，提出一种新的主题建模方法，从而使最终提取的主题更加准确，更符合文档集本身的主题特点.

关键词：主题模型 LDA 社科文献 Gibbs抽样

作者: 李昌亚刘方方

作者单位: 上海大学计算机工程与科学学院,上海200444

会议类型: 国内会议

会议名称: 2019年上海市“智能计算与智能电网”研究生学术论坛

会议地点: 上海

会议语种:中文

页码: 313-318

在线出版日期: 2019-05-17（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于LDA的社科文献主题建模方法