会议专题

面向通用高性能计算的TFLOPS DSP设计权衡

  GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.然而,GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,开始研究将TFLOPS级的DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,本文提出了TFLOPS DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文章的最后总结了一些有指导意义的结论来帮助设计者们构建面向通用高性能计算高效的DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.

数字信号处理器 设计权衡 高性能计算 矩阵乘法 性能模型

ZHANG Kai 张凯 CHEN Shu-Ming 陈书明 WANG Yao-Hua 王耀华 NING Xi 宁希

School of computer, National University of Defense Technology, Changsha 410073, China 国防科学技术大学 计算机学院,湖南省 410073

国内会议

2012全国高性能计算学术年会

张家界

中文

1-9

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)