并行作业容错自动调度环境设计
大型科学与工程计算需要实现空前复杂的数值模拟计算和处理空前庞大的数据,有必要设计一个容错环境,自动调度加载故障程序。基于并行作业和系统提供的checkpoint/restart功能,本文设计了一个用户级的并行作业容错自动调度环境,包括并行程序容错调度的自动感知、自动加载和数据完整性保证算法。测试结果表明,并行作业容错自动调度环境保证了checkpoint数据的完整性,并在应用程序出错退出以后,调度环境可以自动感知,自动提交运行作业,实现了并行作业无需用户干预的容错自动调度计算,避免了系统资源和计算时间的浪费。
自动调度 数值模拟 作业容错
刘杰 张亦添 迟利华 徐涵 蒋杰 胡庆丰
国防科技大学计算机学院,湖南,长沙,410073
国内会议
哈尔滨
中文
87-90
2009-08-07(万方平台首次上网日期,不代表论文的发表时间)