会议专题

基于OpenCL的连续数据无关访存密集型函数并行与优化研究

  连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作.本文在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化.在考察了向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植.实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850 GPU达到了平均40倍的性能加速比;在AMD HD 7970 GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050 GPU上达到了平均60倍的性能加速比;同时,与这两个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上,也达到了1.5倍的性能加速.

图像处理器 连续数据 无关访存密集型函数 性能移植

JIANG Li-yuan 蒋丽媛 ZHANG Yun-quan 张云泉 LONG Guo-ping 龙国平 JIA Hai-peng 贾海鹏

Laboratory of Parallel Software and Computational Science, Institute of Software, Chinese Academy of 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190;中国科学院 研究生院,北京 100190 Laboratory of Parallel Software and Computational Science, Institute of Software, Chinese Academy of 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190;中国科学院 软件研究所 计算机科学国家重点实验室,北京 100190 Laboratory of Parallel Software and Computational Science, Institute of Software, Chinese Academy of 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190 Laboratory of Parallel Software and Computational Science, Institute of Software, Chinese Academy of 中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190;中国海洋大学 信息科学与工程学院,青岛 266100

国内会议

2012全国高性能计算学术年会

张家界

中文

1-11

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)