会议专题

大规模计算系统故障特征及容错机制分析

本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。

大规模计算系统 运行故障 容错机制 断点续算 稳定性分析

武林平 罗红兵 刘勇鹏

北京应用物理与计算数学研究所,北京 1O0094 国防科技大学计算机学院,湖南 长沙 410073

国内会议

2009年全国高性能计算学术年会

长沙

中文

237-240

2009-10-23(万方平台首次上网日期,不代表论文的发表时间)