面向MapReduce的非对称分片复制连接算法优化技术研究
连接运算是面向海量数据的复杂分析型任务的核心内容之一,但是目前最具竞争力的分布式并行处理框架MapReduce没有对连接运算提供内在的支持.经分析发现现有的工作无法以既高效又不影响集群负载均衡和容错能力的方式来处理适用面最广的非对称分片复制并行连接算法,因此提出一种基于自适应分片的优化算法AFR-AS.借助自适应分片可以解耦Map任务数与数据集复制代价之间的高度耦合关系.利用自适应分片的动态构造算法,Map任务可以在任务生命周期内处理多个普通分片,从而有效降低任务启动开销以及非对称分片复制连接中的数据广播开销,同时保证了基于普通分片的细粒度负载平衡和容错能力.实验表明,优化技术可以有效提高连接运算性能且具有自适应性.
映射规约数据库 连接算法 优化设计 并行处理
Pan Wei 潘巍 Li Zhanhuai 李战怀 Chen Qun 陈群 Suo Bo 索博 Li Weibang 李卫榜
School of Computer Science, Northwestern Polytechnical University, Xi”an 710129 西北工业大学计算机学院 西安 710129
国内会议
合肥
中文
296-302
2012-10-01(万方平台首次上网日期,不代表论文的发表时间)