会议专题

一种基于高性能集群计算系统的检查点策略

为了提高高性能集群计算系统的容错能力,检查点设置成为一种广泛采用的手段.目前检查点设置多采用的协调式设置协议,该协议在集群规模扩展情况下,同步操作造成巨大的系统时间开销,并阻塞正常计算的执行.针对该问题,使用非协调式检查点设置协议消除同步操作,采用消息日志记录方式保证系统状态一致性,并利用线程后台执行方式达到透明性设置.最后,通过典型的系统实验,验证了该方法的有效性,并进行同协调式协议设置的时间开销对比.

检查点策略 容错技术 集群系统 非阻塞协议 集群计算系统

隋翠翠 晏海华

北京航空航天大学计算机学院,北京,100191

国内会议

2008年全国开放式分布与并行计算学术年会

扬州

中文

162-165

2008-10-25(万方平台首次上网日期,不代表论文的发表时间)