基于LDA的主题演化研究--以NSFC资助的中国医学类SCI论文为例
采用按时间先离散的方法建立主题模型,通过监测主题在不同时间片内的变化趋势进行主题演化分析.在各时间片中分别建立LDA模型;利用前一时间片的后验概率影响当前时间片的先验概率来维持主题间的连续性;使用Gibbs算法进行推理,获取主题-词和文档-主题的概率分布;利用KL距离来计算主题之间的相似度,刻画其演化情况.并以此方法对近十年中国医学类SCI论文进行了主题演化分析.
医学类论文 信息提取 主题演化 线性鉴别分析模型 时间先离散法
李勇
中国医学科学院医学信息研究所 北京100020
国内会议
中国医学科学院/北京协和医学院医学信息研究所/图书馆2014年学术年会
北京
中文
95-101
2015-01-01(万方平台首次上网日期,不代表论文的发表时间)