基于密度网格树的数据流聚类算法
提出一种采用树型概要结构的密度网格树流聚类算法DG-Tree(Density and Grid-Tree Algorithm)。该算法利用数据流聚类算法CluStream中的处理框架,把聚类分为微聚类和宏聚类两个过程。在微聚类过程中,通过把数据流按属性值分配到一棵树中,消除了空刚格对聚类结果的影响,同时针对数据流聚类中,近期的数据往往比久远的数据更受关注的特点,引入了时间衰退模型;在宏聚类过程中,对微聚类中生成的树中的叶子节点进行密度聚类,通过设立噪音密度阀值函数和更新周期,不仅可以有效的发现噪音叶子节点,还减少了密度聚类中对叶子节点密度更新的计算量,减少了算法的时间消耗。通过在KDD Cup 99数据集上的实验表明,相比DBScan算法和CluStream算法,DG-Tree算法在时间效率上有很大提高。
密度网格密度 数据流聚类算法 数据结构
孟军 王宏科 王秀坤 沈浪
大连理工大学 电子与信息工程学院,辽宁 大连 116023 大连理工大学 软件学院,辽宁 大连 116620
国内会议
上海
中文
432-438
2009-11-14(万方平台首次上网日期,不代表论文的发表时间)