基于LDA的社科文献主题建模方法
随着互联网的发展,文本分类和主题提取的应用越来越广泛,而主题模型在文本主题提取中起着很大的作用.LDA(latent Dirichlet allocation)模型是一种应用非常广泛且很成熟的主题模型,也是一个概率生成模型,可以很好地解决多词一义和一词多义的问题.但是当利用LDA 模型对社科文献领域类的文档集进行主题建模时,由于该建模方法忽略了文档集自身的主题特点,提取的主题分布是偏向文档中高频词汇,所以造成最后提取的主题偏离文档的本质意义上的主题、结果不够准确.针对LDA 模型对文档进行主题建模的过程,结合社科文献领域的文档特点,对主题建模的过程进行相应的改进,提出一种新的主题建模方法,从而使最终提取的主题更加准确,更符合文档集本身的主题特点.
主题模型 LDA 社科文献 Gibbs抽样
李昌亚 刘方方
上海大学计算机工程与科学学院,上海200444
国内会议
上海
中文
313-318
2019-05-17(万方平台首次上网日期,不代表论文的发表时间)