一种基于高性能集群计算系统的检查点策略
为了提高高性能集群计算系统的容错能力,检查点设置成为一种广泛采用的手段.目前检查点设置多采用的协调式设置协议,该协议在集群规模扩展情况下,同步操作造成巨大的系统时间开销,并阻塞正常计算的执行.针对该问题,使用非协调式检查点设置协议消除同步操作,采用消息日志记录方式保证系统状态一致性,并利用线程后台执行方式达到透明性设置.最后,通过典型的系统实验,验证了该方法的有效性,并进行同协调式协议设置的时间开销对比.
检查点策略 容错技术 集群系统 非阻塞协议 集群计算系统
隋翠翠 晏海华
北京航空航天大学计算机学院,北京,100191
国内会议
扬州
中文
162-165
2008-10-25(万方平台首次上网日期,不代表论文的发表时间)