基于隐主题分析和文本聚类的微博客新闻话题发现研究
本文研究在大规模微博客文本集上的话题发现的问题。微博客与传统博客不同,首先,它的长度比传统博客短,往往只有只言片语。其次,它可以通过手机,即时通讯软件等,实时发布,从而会在短时间内产生大量数据。对于微博客的短文本数据,传统使用词或短语作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。本文使用隐主题模型,充分挖掘短文本的隐主题信息,并在隐主题空间上度量短文本之间的相似度,从而有效解决了短文本的数据稀疏性问题。另一方面,对于大规模的数据,传统直接利用聚类方法聚合出新闻话题的方法,很难快速得到理想结果。而本文则首先根据新闻的特点,选择出最有可能谈论新闻事件的微博客,然后用一种两层的K均值和层次聚类的混合聚类方法,将选择出的微博客快速准确地聚合成不同的新闻话题。实验结果表明,本文的方法能有效地从大规模微博客短文本数据集中,挖掘出新闻话题。
微博客 短文本数据 隐主题模型 话题发现 混合聚类
路荣 项亮 刘明荣 杨青
中国科学院自动化研究所模式识别国家重点实验室,北京,100190
国内会议
黑龙江镜泊湖
中文
291-298
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)