基于Spark可视化大数据挖掘平台

摘要：

在千亿级大数据环境下,特征挖掘、实时处理、即席分析、离线计算等场景对计算、存储的性能要求非常高.基于传统的关系型数据库、分布式Hadoop平台实现的数据挖掘平台,无法满足所有的计算场景的要求.鉴于此,本文介绍了基于内存迭代计算框架Spark,实现大数据环境下的可视化大数据挖掘平台.该平台不仅充分利用了内存计算,提高了迭代速度,而且支持各种分布式计算、存储场景,具有很强的扩展性,解决了大数据环境下各种计算场景问题.

关键词：数据挖掘 Spark框架内存计算可视化技术

作者: 李文程华良彭耀温明杰肖威清张陈斌陈宗海

作者单位: 中国科大-象形大数据商业智能联合实验室,安徽合肥,中国,230031;安徽象形信息科技有限公司,安徽合肥,中国,230031 安徽中烟工业有限责任公司合肥卷烟厂,安徽合肥,中国,230027 中国科大-象形大数据商业智能联合实验室,安徽合肥,中国,230031;中国科学技术大学自动化系,安徽合肥,中国,230027

会议类型: 国内会议

会议名称: 第15届中国系统仿真技术及其应用学术会议

会议地点: 福州

会议语种:中文

页码: 395-398

在线出版日期: 2014-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于Spark可视化大数据挖掘平台