基于Hadoop MapReduce的分布式数据流聚类算法研究
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时的发现任意形状的簇,也不能及时删除数据流中的噪声点.本文提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析以实时的发现数据流中任意形状的簇,定义检测周期和密度阈值函数以及时删除数据流中的噪声点.算法基于网格密度对数据流初始聚类后,随着新的数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,并使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇.实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream.
数据挖掘 数据流聚类 网格密度 MapReduce框架
蔡斌雷 任家东 朱世伟 郭芹
山东省科学院情报研究所,济南250014 燕山大学信息科学与工程学院,秦皇岛066004 济南大学泉城学院,烟台265600
国内会议
武汉
中文
139-144
2013-09-01(万方平台首次上网日期,不代表论文的发表时间)