会议专题

基于LDA的社科文献主题建模方法

  随着互联网的发展,文本分类和主题提取的应用越来越广泛,而主题模型在文本主题提取中起着很大的作用.LDA(latent Dirichlet allocation)模型是一种应用非常广泛且很成熟的主题模型,也是一个概率生成模型,可以很好地解决多词一义和一词多义的问题.但是当利用LDA 模型对社科文献领域类的文档集进行主题建模时,由于该建模方法忽略了文档集自身的主题特点,提取的主题分布是偏向文档中高频词汇,所以造成最后提取的主题偏离文档的本质意义上的主题、结果不够准确.针对LDA 模型对文档进行主题建模的过程,结合社科文献领域的文档特点,对主题建模的过程进行相应的改进,提出一种新的主题建模方法,从而使最终提取的主题更加准确,更符合文档集本身的主题特点.

主题模型 LDA 社科文献 Gibbs抽样

李昌亚 刘方方

上海大学计算机工程与科学学院,上海200444

国内会议

2019年上海市“智能计算与智能电网”研究生学术论坛

上海

中文

313-318

2019-05-17(万方平台首次上网日期,不代表论文的发表时间)