MapReduce中连接负载均衡优化研究
数据分析和处理是大规模分布式数据处理应用中的重要任务.由于简单易用和具有灵活性,MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型.由于处理的数据可能不是均匀分布,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题.数据倾斜问题严重降低MapReduce执行连接操作的效率.针对MapReduce中连接操作的数据倾斜问题,分析了形成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割(rangepartitioner)方法控制连接过程中的数据倾斜问题实现负载均衡的策略.实验结果表明所提出的方法明显提高了连接的效率.
分布式数据处理 MapReduce编程模型 数据倾斜 负载均衡 范围分割
翟红敏 刘国华 赵威 刘源源 翟红坤
东华大学计算机科学与技术学院 上海 201620 国网黑龙江省电力有限公司信息通信公司,黑龙江 150000
国内会议
济南
中文
1-10
2014-10-16(万方平台首次上网日期,不代表论文的发表时间)