基于SparkR的分类算法并行化研究
近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点.早几年国内外研究者和业界比较关注的是在Hadoop平台上的并行化算法设计.然而, Hadoop MapReduce平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法.随着UC Berkeley AMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,近年来国内外开始关注在Spark平台上如何实现各种机器学习和数据挖掘并行化算法设计.为了方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析,Spark提供了一个称为SparkR的编程接口,使得一般应用领域的数据分析人员可以在R语言的环境里方便地使用Spark的并行化编程接口和强大计算能力.本文基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法,SVM算法和Logistic Regression算法.进一步地,对于SVM和Logistic Regression算法,本文在常规的并行化策略的基础之上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式.实验结果表明,本文所设计实现的基于SparkR的并行化分类算法与Hadoop MapReduce的方案相比,速度上提升了8倍左右.
数据库 机器学习 数据挖掘 分类算法
刘志强 顾荣 袁春风 黄宜华
南京大学计算机软件新技术国家重点实验室 南京210046 江苏省软件新技术与产业化协同创新中心 南京210046
国内会议
北京
中文
1-13
2014-12-01(万方平台首次上网日期,不代表论文的发表时间)