会议专题

一种提高虚拟化Hadoop系统数据本地性的资源调度方法

在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在虚拟化的Hadoop系统中效果不佳.这是因为在虚拟化的Hadoop中,数据的分布被分为了两个层次:虚拟机和物理机.该文采用将计算节点和存储节点分别部署在不同虚拟机中的方式部署虚拟化Hadoop系统,并提出了一种提高数据本地性的资源调度方法.首先,在任务提交阶段,调节作为计算节点的虚拟机的计算能力,使其能够运行较高数据本地性的任务;其次,在任务运行阶段,通过迁移计算节点到任务所需数据存储节点所在的物理机以提高数据本地性.实验表明,本文提出的方法能够使86%的测试程序的作业完成时间在不同程度上有所减少.特别地,在测试案例TeraSort中处理10GB的数据,本文的方法比传统方法缩短了33%的作业完成时间.

Hadoop分布式平台 应用程序 数据本地性 资源调度

孙瑞琦 杨杰 高瞻 贺志强

北京航空航天大学计算机学院,北京100191;联想研究院云与智能计算实验室,北京100085 联想研究院云与智能计算实验室,北京100085 北京航空航天大学计算机学院,北京100191;联想集团,北京100085

国内会议

第二届CCF大数据学术会议

北京

中文

1-10

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)