基于Matrix的二级BLAS库的设计与实现
支持科学和工程计算的BLAS(基本线性代数子程序)在高性能计算中有着重要作用.本文针对Matrix的体系结构以及二级BLAS库函数的特点,采用优化数据布局、软件流水、指令重排方法,设计和实现了BLAS2库函数在Matrix上的高效映射,并与TIC6713进行对比.实验结果表明,与TIC6713相比,性能平均提高约26倍,BLAS2库函数的在Matrix上平均计算效率达到71%以上.
基本线性代数子程序库 体系结构 算法映射 软件流水
张军阳 刘仲
国防科技大学计算机学院 长沙410073
国内会议
西宁
中文
368-372
2013-07-20(万方平台首次上网日期,不代表论文的发表时间)