超级计算机作业运行稳定性分析
通过作业日志分析和考核实验方式,对超级计算机并行作业运行稳定性进行了分析。日志分析结果表明,并行作业运行的稳定性会随作业执行时间的增长、作业使用CPU数的增多而下降;当并行作业的计算量达到105CPU小时量级,超过20%的作业会因系统故障而中止。考核实验结果表明,使用数千CPU的并行作业很容易受到多种因素的干扰而中止,很难持续运行超过24小时。最后给出了有关超级计算机稳定性改进、系统管理使用和并行程序研制的几点建议。
超级计算机 并行作业 系统管理 稳定性改进
罗红兵 曹小林 曹立强 武林平 莫则尧
北京应用物理与计算数学研究所高性能计算中心,北京,100088
国内会议
哈尔滨
中文
91-93,105
2009-08-07(万方平台首次上网日期,不代表论文的发表时间)