会议专题

一种基于并发性发掘的低开销回卷恢复实现方法

  回卷恢复容错技术基于时间冗余进行容错,无须结点冗余,是实现高性能计算可靠的主流技术.但现有实现存在同步约束和阻塞问题,其时间开销随系统结点规模增大而剧增.基于依赖的传播特性提出无同步约束的轻量级消息日志协议,基于进程负载解析以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,降低故障恢复开销.三个NAS NPB2.3 标准性能检测程序的实验结果表明:检查点开销从0.63 秒、3.19 秒、1.21 秒分别降低到了0.18 秒、0.67 秒、0.19 秒;日志开销率从13.4%,3.5%,18.3%分别降低到了0.7%,0.1%,1.0%.

回卷恢复 容错技术 同步约束 并发性挖掘

YUAN Gong-Biao 袁功彪 YANG Jin-Min 杨金民 BAI Shu-Ren 白树仁

Department of Information Science and Engineering,Hunan University,Changsha 410082,China 湖南大学 信息科学与工程学院,湖南 长沙 410082 Supercomputing Center,Hunan University,Changsha 410082,China 湖南大学 超级计算中心,湖南 长沙 410082

国内会议

2012全国高性能计算学术年会

张家界

中文

1-8

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)