会议专题

高性能并行计算系统检查点技术与应用

随着高性能并行计算系统规模越来越大,软件和硬件发生故障的概率随之增大,系统的容错性和可靠性已经成为应用可扩展性的主要限制因素.并行检查点技术可以使系统从故障中恢复并减少计算损失,是高性能计算系统重要的容错手段.本文将介绍检查点技术的背景和定义,研究并行检查点协议的分类,检查点存储技术,以及利用这些协议和技术实现的MPI并行检查点系统,最后给出对各个关键技术的详细评价及结论.

高性能计算 消息传递系统 并行检查点 回滚恢复

孙国忠 李艳红 樊建平

中国科学院计算技术研究所,中国科学院研究生院,北京,100080

国内会议

中国科学院计算技术研究所第八届计算机科学与技术研究生学术讨论会

大连

中文

74

2004-07-01(万方平台首次上网日期,不代表论文的发表时间)