基于LDA的文本聚类在网络舆情分析中的应用研究
随着互联网的快速发展,网络舆情分析研究变得越来越重要.其中聚类是网络舆情分析中的一个非常重要的方法.传统的聚类算法都是基于词语来进行聚类,忽略了文本中可能隐含的信息.本文将TF-IDF和LDA主题模型分别计算的文本相似度进行线性结合来计算文本之间的相似度,从而进行更准确的聚类分析.在构建LDA主题模型时,通过Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定.在仿真实验中,通过耗费函数来确定文本相似度的融合系数,同时通过F-measure值来对聚类实验结果进行评估.实验结果表明,该方法不仅能够提高聚类结果的准确度,同时保证多次聚类的结果有比较高的稳定性.
网络舆情 文本聚类 相似度 稳定性能
WANG Shaopeng PENG Yan WANG Jie
College of Information Engineering,Capital Normal University,Beijing,100048,China School of management,Capital Normal University,Beijing,100048,China
国内会议
湖北恩施
中文
1-9
2014-09-13(万方平台首次上网日期,不代表论文的发表时间)