会议专题

基于时间衰减和特征变量的数据流聚类算法

  数据流聚类的特点是数据量随时间逐渐增加,聚类模式会发生概念漂移。针对数据流聚类的特征,为数据点及其集合设计时间衰减函数,既减小数据量又反映出概念漂移;同时为数据点集合设计特征变量组合,根据特征变量组合将相近的数据点集合并为聚类,实现识别非球形聚类。基于时间衰减和特征变量,提出一种数据流聚类算法——基于时间衰减和特征变量的数据流聚类(clustering algorithmbased on time attenuation and feature variables,TAFVC)算法,既减轻数据量增长对聚类算法的限制,反映出聚类模式的变化,又实现挖掘任意形状聚类的功能,并具有很好的性能。最后,将该算法应用于合成数据及实际数据,并与经典算法CluStream和HPStream进行比较,结果表明TAFVC在聚类效果和性能方面具有明显的优势。

数据流聚类算法 信息挖掘 时间衰减 特征变量

Hu Zhongyi 胡仲义 Guo Chao 郭超 Wang Yongyan 王永炎 Liu Shenghang 刘胜航 Wang Hongan 王宏安

Institute of Software, Chinese Academy of Sciences, Beijing 100190 中国科学院软件研究所 北京 100190

国内会议

第29届中国数据库学术会议

合肥

中文

155-162

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)