资源管理系统中基于作业检查点的自动容错
本文提出了在资源管理系统中基于作业检查点实现自动容错支持,深入分析了作业与任务检查点分离、映像文件管理、自动恢复执行等关键技术。基于BLCR在SLURM中实现了作业的自动检查点/恢复,详细介绍了实现中的关键技术难题。分析与测试表明,检查点与恢复执行功能正确,并能有效缩短大规模作业成功运行所需的时间。
作业检查点 资源管理 自动容错 自动恢复执行
曹宏嘉 卢宇彤 谢旻
国防科技大学计算机学院,湖南,长沙,410073
国内会议
哈尔滨
中文
66-68,109
2009-08-07(万方平台首次上网日期,不代表论文的发表时间)