PLASMA自适应调优与性能优化的设计与实现
PLASMA是一个高效的线性代数软件包,其数据分布结合分堆、细粒度并行和乱序执行机制大大提高了程序的性能。但PLASMA仍然存在一些问题,比如分块大小对程序性能的影响非常大,以及产生了大量的数据拷贝等。通过对比传统的LAPACK和PLASMA的实现机制,分析了PLASMA中存在的优势和不足,介绍了两种弥补PLASMA自身不足的方法。针对PLASMA的架构,经过大量的测试与分析,提出了边缘矩阵的概念并分析其对性能的影响,据此提出了一种自适应调优的方法。并通过数据拷贝与计算并行的运行方式,进一步提高了PLASMA性能,最后通过大量的测试验证了该优化方法的效果。
自适应调优 性能优化 线性代数软件包 边缘矩阵 乱序执行机制
吕渐春 张云泉 王婷 肖玄基
中国科学院软件所并行计算实验室,北京 100190 中国科学院研究生院,北京 100190 中国科学院软件所并行计算实验室,北京 100190
国内会议
2011年全国高性能计算学术年会(HPC china2011)
济南
中文
1-8
2011-10-26(万方平台首次上网日期,不代表论文的发表时间)