BLAS库在多核处理器上的性能测试与分析
BLAS 库是高性能计算中最基本的数学库,它的性能对超级计算机的性能有着极大的影响.而且随着CPU多核化的发展,BLAS的多核并行性能已经变得比与体系结构相关的单核性能更加重要.实验以流行于高性能计算的Xeon、Opteron 系列多核X86 处理器为例,全面测试了GotoBLAS、Atlas、MKL.ACML四种主流的BLAS 库的所有1,2,3 级函数,并覆盖了不同计算规模和多核并行方面的测试.通过测试结果,分析源代码、BLAS 库资料和论文的方式,分析BLAS 有效的优化和并行方法,以及它们所适合的平台.为BLAS的优化、使用,甚至高性能处理器的发展上提供有益的建议.实验发现,比起一个逻辑处理强大但是复杂的处理器,一个Cache 更大、性能更好,内存带宽更宽、延迟更小,主频更高的处理器往往能在高性能计算中取得更好的性能.同时,X86 平台上的状况对其他体系结构也有巨大的借鉴意义.
BLAS库 多核处理器 性能测试 并行分析
陈少虎 张云泉 张先轶 程豪
中国科学院软件研究所并行软件与计算科学实验室 北京 100190;中国科学院软件研究所计算机科学股价重点实验室 北京 100190;中国科学院研究生院 北京 100190 中国科学院软件研究所并行软件与计算科学实验室 北京 100190;中国科学院软件研究所计算机科学股价重点实验室 北京 100190 中国科学院软件研究所并行软件与计算科学实验室 北京 100190
国内会议
2010年全国高性能计算学术年会(HPC china2010)
北京
中文
46-53
2010-10-27(万方平台首次上网日期,不代表论文的发表时间)