会议专题

面向热点话题时间序列的有效聚类算法研究

  聚类热度时间序列是揭示和建模网络热点话题形成与发展的重要过程.Leskovec等人在2010年提出面向话题时间序列的K_SC聚类算法,其精确度较高且能较好地刻画话题内在发展趋势特征.但K_SC算法具有对初始类矩阵中心高度敏感、高时间复杂度等特性,使其难以在实际高维大数据集上应用.文中结合小波变换技术,提出一个新的迭代式聚类算法WKSC,主要提出两个创新:(1)用Haar小波变换将原始时间序列进行压缩,降低原始时间序列的维度,从而降低了算法的时间复杂度;(2)在Haar反小波变换中,将低维聚类返回得到的矩阵中心作为高维聚类的初始矩阵中心,在迭代聚类过程中优化了对初始矩阵中心高敏感性的问题,提高了聚类的效果.文中分别采用国内外3个数据集作为测试样本,进行了大量的实验.实验结果表明WKSC算法能显著降低聚类的时间复杂度,同时改进聚类效果.WKSC算法可很好的应用于大量高维热点话题的模式分析.

热点话题 时间序列 聚类算法 小波变换

HAN Zhong-Ming 韩忠明 CHEN Ni 陈妮 LE Jia-Jin 乐嘉锦 DUAN Da-Gao 段大高 SUN Jian-Zhi 孙践知

School of Computer Science and Information Engineering, Beijing Technology and Business University, 北京工商大学计算机与信息工程学院 北京 100048 School of Computer Science, Donghua University, Shanghai 200051 东华大学计算机科学与技术学院 上海200051

国内会议

第29届中国数据库学术会议

合肥

中文

2337-2347

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)