异构平台中并行矩量法的加速技术
本文主要研究了在CPU/GPU异构集群上的并行矩量法的加速技术.本文设计出一种MPI/CUDA软件编程架构,解决了CPU/GPU异构集群上并行LU分解跨节点计算的难题.此架构基于矩阵分块二维循环分布的数据分配策略,利用MPI实现计算节点之间的通信,同时利用GPU加速矩阵更新过程.为了突破GPU显存对LU分解的矩阵规模的限制,本文进一步研究了”显存—内存”核外算法.为了优化算法性能,本文提出了基于”CUDA流”技术和”异步通信”技术的设计方案,实现了GPU通信与计算的重叠,有效隐藏了GPU通信时间,获到了明显的加速效果.
图形处理器 分布式异构平台 并行矩量法 加速技术 算法优化
陈岩 张光辉 林中朝 张玉 赵勋旺
西安电子科技大学 电子工程学院,西安 710071
国内会议
湖南常德
中文
51-54
2014-07-21(万方平台首次上网日期,不代表论文的发表时间)