基于混合聚类的微博热点话题发现方法

针对划分聚类算法对初始中心较为敏感的缺陷,提出了一种新的热点话题检测方法.首先,为了降低语义表达形式带来的误差,采用结合语义相似度的TF-IDF函数计算特征权重;然后,用Agnes算法进行聚类,得到初始聚类中心,再用K-means算法聚类出最终结果;最后,分析微博的转发数和评论数对热度的影响,计算话题热度并对结果进行排序.实验证明了该方法在话题检测方面的有效性.
热点话题检测 聚类算法 语义相似度 特征权重
张亚男 冯建文
杭州电子科技大学,计算机学院,浙江 杭州 310018
国内会议
杭州
中文
243-253
2016-11-23(万方平台首次上网日期,不代表论文的发表时间)