基于密度与网格的高效并行的空间聚类算法GRIDEN
提出了一种基于此概念的基于密度和网格的空间聚类算法GRIDEN.与传统的基于密度的聚类算法进行对比,它消除了几乎所有的空间距离计算(除了关于ε的近邻格子子集),从而表现出极高的效率,同时支持并行计算.与传统的基于网格的聚类算法相比,它通过一个空间对称的由(2k+1)D个格子组成的集合,将最大计算误差控制到一个可以接受的程度,从而获得可靠聚类质量.它为用户提供了额外的参数k用于在算法的速度与精度之间做权衡,从而增加了算法的灵活性与可应用性.由于网格具有记录每个格子密度信息的能力,GRIDEN算法可以支持多密度聚类和增量聚类.它同时支持利用专家知识来进行新聚类功能的开发.在我们的实验中,三个真实的数据集被用于验证提出的算法.实验结果表明:GRIDEN算法的聚类质量是可靠的,随着参数k值的增大,聚类结果会无限趋近于DBSCAN算法的聚类结果,且只需要线性到N的运行时间.更重要的是,它的聚类速度可以通过采用更多的计算核心来持续加速.
基于网格聚类 基于密度聚类 DBSCAN GRIDEN 数据挖掘 海量空间数据 并行计算
邓超 宋金伟 孙瑞志 蔡赛华 史银雪
中国农业大学农业部农业信息获取技术重点实验室,北京市海淀区清华东路17号,100083;广西中烟工业有限责任公司,南宁市北湖南路28号,530001 中国科学院国家空间科学中心,北京市海淀区中关村南二条1号,100190 中国农业大学农业部农业信息获取技术重点实验室,北京市海淀区清华东路17号,100083
国内会议
南宁
中文
416-427
2018-10-01(万方平台首次上网日期,不代表论文的发表时间)