基于OpenCL的归约算法优化研究

摘要：

　　归约算法在科学计算和图像等领域有着广泛应用,本文系统研究了在OpenCL 框架下,归约算法在 GPU上的跨平台性能优化.已有研究工作一般只侧重单个硬件架构,本文基于 OpenCL 从向量化、片上存储体冲突、线程组织方式和指令选择优化等多个优化角度系统考察了不同优化方法在GPU 硬件平台的影响.具体以minMax函数为例对每种优化方法进行了详细的性能分析,并给出了提高性能的原因.在AMD GPU和NVIDIA GPU平台分别测试的结果表明优化后的算法在两个平台上都能实现很好的性能加速.在AMD ATI Radeon HD 5850平台上,Int和Float类型数据带宽利用最高达到了实测带宽的89％.在NVIDIA GPU Tesla C2050 平台上,性能也达到了CUDA版本的相应函数性能的1.3~1.9 倍.

关键词：归约算法跨平台性能图形处理单元统一计算架构

作者: 颜深根张云泉龙国平

作者单位: 中国科学院软件研究所并行软件与计算科学实验室.北京 100190 中国科学院软件研究所计算机科学国家重点实验室.北京 100190 中国科学院研究生院.北京 100190 中国科学院软件研究所并行软件与计算科学实验室.北京 100190 中国科学院软件研究所计算机科学国家重点实验室.北京 100190 中国科学院软件研究所并行软件与计算科学实验室.北京 100190

会议类型: 国内会议

会议名称: 2011年全国高性能计算学术年会(HPC china2011)

会议地点: 济南

会议语种:中文

页码: 1-10

在线出版日期: 2011-10-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于OpenCL的归约算法优化研究