基于词向量和AP聚类的短文本主题演化分析
研究文本数据的主题演化有助于把握不同时间窗口内社会新闻热点的动态变化.本文针对短文本数据特征稀疏和LDA主题模型对短文本数据主题抽取效果差的问题,设计一个利用词向量改进的AP聚类方法.首先本文利用word2vec词向量建模工具对短文本进行词向量训练,然后对同一时间窗口内的短文本进行AP聚类,将最后收敛的聚类簇人工拼接合成长文本,接着对各个时间窗口内的长文本进行LDA建模,最后对建模后的主题分布进行主题演化内容分析和主题演化强度分析.结果表明,本文所用的方法能够有效地表达短文本数据的主题演化规律.
文本数据 主题演化 词向量 AP聚类
李锋刚 张亚南 汪兵
合肥工业大学 管理学院 安徽 合肥230009
国内会议
杭州
中文
1-8
2018-11-03(万方平台首次上网日期,不代表论文的发表时间)