共享的MapReduce环境下批量作业的调度算法研究
MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,提出一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法).首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对FD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求.
数据处理 批量作业 任务调度算法 映射归约模型 吞吐量
王习特 申德荣 聂铁铮 寇月 于戈
东北大学信息科学与工程学院 沈阳110004
国内会议
哈尔滨
中文
332-341
2013-08-16(万方平台首次上网日期,不代表论文的发表时间)