基于主题模型的微博重要话题发现与排序方法
近年来,以Twittter和新浪微博为代表的微博客正在世界范围内流行起来根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法首先,在互联网上收集并格式化出现了感兴趣的词的微博对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.速一方法可以克服微博的长度限制所带来的数据稀缺性问题最后,通过真实数据集上的实验表明了该方法的有效性.
微博客 文本挖掘 主题模型 重要话题 发现方法 排序方法
姜晓伟 王建民 丁贵广
清华大学软件学院信息系统与工程研究所 北京100084
国内会议
哈尔滨
中文
179-185
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)