MapReduce框架在高性能计算机平台上的部署与性能优化技术
大数据时代的来临已经为个人生活、企业经营,甚至国家和社会发展带来了新的机遇,同时大数据的存储、分析处理技术也迎来了严峻挑战.当前大规模数据处理平台主要有商用集群系统、高性能计算机系统等,相应的处理技术分别为MapReduce编程框架和MPI并行程序设计等.但是此两种技术都有各自的优势和缺点,处理效率有限.研究如何使两者优势互补、相互融合,可以一定程度上缓解大数据的存储与处理压力,而且对于拓展高性能计算机的应用领域具有一定意义.本文首先探索了在采用MPP体系结构的高性能计算机系统上直接部署MapReduce的可能性,测试发现其性能受限于共享存储系统的I/O瓶颈.于是本文提出一种内存缓存策略,将MapReduce任务的中间数据和临时数据缓存在内存中,在高性能计算机TH1-A上测试后发现,对于会产生大量中间结果数据的应用,内存缓存的效率提升达100%以上.
计算机平台 共享存储系统 内存缓存策略 MapReduce编程
喻杰 刘光明 董文睿 胡维
国防科学技术大学计算机学院,长沙410073
国内会议
武汉
中文
84-89
2013-09-01(万方平台首次上网日期,不代表论文的发表时间)