会议专题

基于内存缓存的异步检查点容错技术

  高性能计算机系统规模越来越大,系统可靠性问题越来越严重。检查点技术是最典型的容错方法,但是因为并行文件系统的性能提高相对缓慢,数据写带宽低,传统检查点方法产生了严峻的性能问题。针对当前计算机系统计算和存储资源丰富,而并行文件系统写带宽提高相对滞后的特点,本文提出基于内存缓存的异步检查点容错技术,传统的检查点技术被划分为两步:检查点文件首先被缓存在计算结点的局部内存,然后使用一个独立的帮助任务将数据拷贝到并行文件系统。利用局部内存带宽高以及帮助任务和计算任务并行执行的特点,新的方法极大减小了检查点容错引入的时间开销,模拟和实际程序测试验证了异步检查点容错技术的有效性。

高性能计算机系统 异步检查点 容错技术 内存缓存

YI Huizhan-Zhan 易会战 YANG Can-Qun 杨灿群 ZUO Ke 左克 WANG Feng 王锋

Department of Computer,National University of Defense Technology,Changsha 410073,China 国防科技大学 计算机学院,长沙 410073

国内会议

2012全国高性能计算学术年会

张家界

中文

1-11

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)