会议专题

超大规模并行计算容错恢复的实现和挑战

  本文介绍和比较当前超大规模并行计算的一些容错与恢复的方法,描述IBM高性能并行计算的Checkpoint/Restart 技术架构。同时探讨了并行计算的容错和恢复在超大规模集群架构下所面临的问题和挑战,以及结合并行计算编程模型的实现,阐述其与容错/恢复机制之间的关联。

并行计算 容错技术 容器虚拟化 检查点

He Jun 贺军 Chai Hua 柴华

IBM CSTL, Beijing, 100193, China IBM 中国系统与科技研发中心,北京100193

国内会议

2012全国高性能计算学术年会

张家界

中文

1-10

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)