会议专题

基于Hadoop的k-means聚类算法并行实现

本文结合MapReduce并行编程模型的优势,提出了一种k-means聚类算法的并行实现方式.通过随机抽样将整个数据集分成n块,n可以根据数据集的大小确定;采用预聚类和线性预测改善聚类中心质量;Map函数完成数据分块和聚类中心初始化,Reduce函数实现数据块的聚类迭代.实验表明,相比于其他并行实现方式,本文所提出的并行方式使得算法效率更高,性能更优.

数据挖掘 MapReduce并行编程模型 k-means聚类算法 数据集

顾嘉伟 尚俊娜

杭州电子科技大学通信工程学院,杭州310018

国内会议

浙江省信号处理学会2015学术年会

杭州

中文

19-26

2015-12-01(万方平台首次上网日期,不代表论文的发表时间)