会议专题

基于Hadoop异构集群节点性能的数据分配策略

当前Hadoop的实现主要针对同构集群,假设任务处理的数据基本是本地的。然而,实际应用中硬件配置的差异、资源虚拟化等都将导致节点的异构。这就暴露出现有的数据分配策略对数据局部性考虑的不足,所引起不必要的数据传输不但占用额外的带宽资源,而且耗费传输时间。本文通过分析HDFS数据放置与MapReduce任务执行的关系,在考虑Hadoop异构集群中节点固有性能的情况下,提出一种机架间基于任务特性和节点计算能力的数据分配策略。该分配策略提高了对数据局部性的关注,使每个节点都尽可能只访问本地数据。通过实验可知,工作槽的优化配置可以提高集群的资源利用率;该策略可以有效地缩短作业执行时间,提高时效性;同时提高数据局部性,减少网络数据传输,避免拥塞;最后,该分配策略还具有较好的稳定性。

云计算 数据分配策略 异构集群 节点性能

林常航 郭文忠

福州大学数学与计算机科学学院 福州 350108 福州大学数学与计算机科学学院 福州 350108;国防科学技术大学计算机学院 长沙 410073

国内会议

第二届中国互联网学术年会

张家界

中文

11-19

2013-07-01(万方平台首次上网日期,不代表论文的发表时间)