大规模计算系统故障特征及容错机制分析
本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。
大规模计算系统 运行故障 容错机制 断点续算 稳定性分析
武林平 罗红兵 刘勇鹏
北京应用物理与计算数学研究所,北京 1O0094 国防科技大学计算机学院,湖南 长沙 410073
国内会议
长沙
中文
237-240
2009-10-23(万方平台首次上网日期,不代表论文的发表时间)