大规模资源管理系统中作业自动容错管理技术的研究与实现

随着高性能计算系统的规模日益增大,大规模并行处理系统的可靠性问题日益突出.本文从资源管理系统的角度出发研究作业自动容错技术,提出了多作业检查点的综合管理模型,设计并实现了大规模并行处理系统中的自动故障恢复方法,可以将由系统故障引发异常终止的作业自动实现基于检查点机制的恢复运行,避免了系统运行过程中的人工干预,降低了用户程序的平均故障恢复时间,提高了系统的可用性。
资源管理系统 作业自动恢复 可靠性 容错管理
卢宇彤 杨学军 杜云飞
国防科技大学计算机学院,湖南 长沙 410073
国内会议
2008年中国计算机学会体系结构专委会学术年会(ACA”08)
南京
中文
182-186
2008-11-05(万方平台首次上网日期,不代表论文的发表时间)