一种面向大规模并行系统的分组协同检查点算法
随着大规模并行系统使用着越来越多的处理器,相应地其容错能力也变得越来越重要.协同检查点设置和卷回恢复是此类系统中广泛使用的重要容错技术,但它面临着日益严峻的可扩展性问题.随着处理器数目增加导致设置检查点时需要保存更多的检查点文件,这使得其开销率显著增加.本文提出一种新的基于分组的协同检查点算法,它使用更好的调度策略使得某一组进程在设置检查点时,其他的进程能够更多地处于计算状态,从而有效地减少了检查点开销.实验表明该算法在系统规模增加时具有良好地可扩展性.
大规模并行系统 协同检查点 容错技术
黄琼 尚利宏 周密 金惠华
北京航空航天大学计算机学院,北京 100191
国内会议
合肥
中文
263-267
2010-07-24(万方平台首次上网日期,不代表论文的发表时间)