面向大规模数值模拟的多级检查点/续算的优化与应用
高性能计算机的系统规模越来越大,系统可靠性问题越来越严重.针对系统低可靠性与大规模数值模拟需要长时间稳定运行之间的瓶颈,在系统上部署了多级检查点/容错技术.本文详细介绍了在实际系统上部署多级检查点/容错技术时遇到及解决的一些关键问题.实际数据表明,采用多级检查点/容错技术后,作业的平均执行时间可达数十小时以上,有效缩短了大规模并行作业模拟完成所需的时间,方便了用户.
计算机系统 数值模拟 可靠性分析 容错技术 多级检查点 恢复执行
张晓霞 罗红兵
北京应用物理与计算数学研究所 高性能计算中心,北京市 100094
国内会议
桂林
中文
835-838
2013-10-29(万方平台首次上网日期,不代表论文的发表时间)