会议专题

共享的MapReduce环境下批量作业的调度算法研究

MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,提出一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法).首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对FD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求.

数据处理 批量作业 任务调度算法 映射归约模型 吞吐量

王习特 申德荣 聂铁铮 寇月 于戈

东北大学信息科学与工程学院 沈阳110004

国内会议

第30届中国数据库学术会议

哈尔滨

中文

332-341

2013-08-16(万方平台首次上网日期,不代表论文的发表时间)