会议专题

提高集群系统稳定性的自动化管理方法

  为了提升网格节点集群平台的稳定性,提出了一种应用于大规模集群系统的自动管理方法,将该方法部署到本单位曙光5000集群上,取得了较好运行效果。分析了曙光5000使用过程中发生的3类故障模式:计算节点死机,NIS客户端系统失效和违规作业;根据每类故障的发展特征,实现了处理这些故障模式的系统故障自动管理方法;实际运行效果表明该方法能够提高作业成功率,降低计算节点失效率。

故障自动管理 中国国家网格 集群系统 稳定性分析 主动容错

魏勇 邢莉 武林平 罗红兵

北京应用物理与计算数学研究所高性能计算中心,北京100094

国内会议

第三届中国国家网格学术年会

北京

中文

144-147

2011-01-15(万方平台首次上网日期,不代表论文的发表时间)