一种适合社交网络的短文本主题发现方法
短文本主题发现是指从海量的短文本数据中发现热点话题。由于微博等社交网络具有网络语言的鲜明特征,新词层出不穷。本文提出了一种改进的短文本主题发现方法,首先基于HMM模型对文本进行新词发现,把新词补充到用户字典后,利用新词发现结果构建LDA模型,最后聚类得到文档主题分布。实验结果表明,该方法能够有效地增强话题发现的全面性和准确性,更适合社交网络环境下的主题挖掘。
新词发现 话题挖掘 社交网络 微博
刘嘉 王庆林 刘禹 李原
北京理工大学自动化学院,北京100081
国际会议
The 33th Chinese Control Conference第33届中国控制会议
南京
中文
512-516
2014-07-28(万方平台首次上网日期,不代表论文的发表时间)