会议专题

基于MapReduce的多元连接优化方法

多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,本文首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的”木桶效应”,本文通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.本研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接,社交网络中社团发现的链式连接等应用的性能.

数据处理 多元连接 优化运行 执行效率

李甜甜 于戈 郭朝鹏 宋杰

东北大学信息科学与工程学院,沈阳110819 东北大学软件学院,沈阳110819

国内会议

第二届CCF大数据学术会议

北京

中文

1-12

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)