基于Spark的大规模文本k-means并行聚类算法
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意.本文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求.实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。
文本信息 数据挖掘 聚类算法 执行效率
刘鹏 滕家雨 张国鹏 胡延军 黄宜华
中国矿业大学物联网(感知矿山)研究中心,徐州中国221008;矿山互联网应用技术国家地方联合工程实验室,徐州中国221008 中国矿业大学物联网(感知矿山)研究中心,徐州中国221008;中国矿业大学信息与电气工程学院,徐州中国221008 南京大学计算机软件新技术国家实验室,南京中国210023
国内会议
北京
中文
1-11
2014-12-01(万方平台首次上网日期,不代表论文的发表时间)