会议专题

基于OpenCL的归约算法优化研究

  归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和NVIDIA GPU平台分别测试的结果表明优化后的算法在两个平台上都能实现很好的性能加速.在AMD ATI Radeon HD 5850平台上,Int和Float类型数据带宽利用最高达到了实测带宽的89%.在NVIDIA GPU Tesla C2050 平台上,性能也达到了CUDA版本的相应函数性能的1.3~1.9 倍.

归约算法 跨平台性能 图形处理单元 统一计算架构

颜深根 张云泉 龙国平

中国科学院 软件研究所 并行软件与计算科学实验室.北京 100190 中国科学院 软件研究所 计算机科学国家重点实验室.北京 100190 中国科学院 研究生院.北京 100190 中国科学院 软件研究所 并行软件与计算科学实验室.北京 100190 中国科学院 软件研究所 计算机科学国家重点实验室.北京 100190 中国科学院 软件研究所 并行软件与计算科学实验室.北京 100190

国内会议

2011年全国高性能计算学术年会(HPC china2011)

济南

中文

1-10

2011-10-26(万方平台首次上网日期,不代表论文的发表时间)