会议专题

一种面向大规模并行系统的分组协同检查点算法

随着大规模并行系统使用着越来越多的处理器,相应地其容错能力也变得越来越重要.协同检查点设置和卷回恢复是此类系统中广泛使用的重要容错技术,但它面临着日益严峻的可扩展性问题.随着处理器数目增加导致设置检查点时需要保存更多的检查点文件,这使得其开销率显著增加.本文提出一种新的基于分组的协同检查点算法,它使用更好的调度策略使得某一组进程在设置检查点时,其他的进程能够更多地处于计算状态,从而有效地减少了检查点开销.实验表明该算法在系统规模增加时具有良好地可扩展性.

大规模并行系统 协同检查点 容错技术

黄琼 尚利宏 周密 金惠华

北京航空航天大学计算机学院,北京 100191

国内会议

第六届中国测试学术会议

合肥

中文

263-267

2010-07-24(万方平台首次上网日期,不代表论文的发表时间)