会议专题

超级计算机的多模式监控策略

  运行状态的实时监控是对超级计算机进行高效管理的基础.目前的状态监控都是作为作业调度及资 源管理的一个子系统,仅从软件监控的角度提供诸如节点、网络、IO 等部件的负载信息,缺乏更深层次的 状态数据.而随系统规模的扩大,系统包含的存储、通信、计算、散热、电源、监控等部件的数量急剧上 升,由此而来的系统稳定性问题需要多层次、更加全面的状态监控方法,以实现在线故障诊断、失效预测 能力.为了满足这种需求,结合现有系统监控手段,本文提出一种超级计算机的多模式监控策略,从软件 状态、硬件状态两个角度,提供针对超级计算机关键部件的多层次、集中式监控方法.运行结果表明,基 于多模式监控策略的故障管理方法能够提高系统运行稳定性及作业成功率:系统平均无全局故障运行时间 由原来的8 天提高到28 天;系统全局故障修复时间由原来的平均10 小时降低为平均16 分钟;故障引起的失败作业比例由原来的4.6%降低为1.3%.

超级计算机 多模式监控 故障模式 故障诊断 失效预测

武林平 张晓霞 王伟 朱清华 王新建 罗红兵

北京应用物理与计算数学研究所高性能计算中心,北京 100094 国防科技大学计算机学院,长沙

国内会议

2010年全国高性能计算学术年会(HPC china2010)

北京

中文

267-274

2010-10-27(万方平台首次上网日期,不代表论文的发表时间)