基于词相似性与CRP的主题模型
主题模型(Topic Model)用于提取隐含在文档集中的主题,其中每个主题是语义相关的一些词的多项式分布.在文本挖掘中,主题模型不但可以发现隐含在文档中的语义信息,而且能够实现文档的维度约简.本文对主题模型的产生背景、研究现状、研究方法以及存在的问题做了较详细的阐述,并针对LDA(Latent Dirichlet Allocation)主题模型不能自动确定主题数目的问题,提出了一种结合词相似性与CRP(Chinese Restaurant Process)的隐主题模型,该模型能够较快地自动确定合理的主题数目,并产生主题上的词分布.在模拟数据和中医临床诊疗数据的实验中,该方法获得了较好的分析结果.
诊疗数据 主题模型 词相似性 CRP方法
张小平 周雪忠 黄厚宽 冯奇 陈世波
北京交通大学计算机与信息技术学院 100044 中国中医科学院广安门医院,北京,100053
国内会议
北京
中文
1-8
2014-09-01(万方平台首次上网日期,不代表论文的发表时间)