故障信息分析技术研究
如今,高性能计算机的性能越来越高,机器的规模也越来越庞大,机器出现的故障的几率也相应增加。因此,研制高性能计算机要考虑的因素已不仅仅是性能,减少故障发生次数和总时间也是一个重要的指标。查看系统运行期间的事件日志信息是系统管理员获取系统行为的一种方式,利用好该信息可有效分析系统出现故障的模式,进而预测系统潜在故障的发生,降低故障对系统的影响。本文就如何有效利用事件日志信息进行介绍,并分别从事件日志信息的过滤以及故障信息分析两个方面进行阐述,详细介绍了时间-空间过滤算法,基于规则的故障预测算法等基本算法。
事件日志 信息过滤 故障预测 关联规则 高性能计算机 时间-空间过滤算法
施得君 高剑刚 姚玉良
江南计算技术研究所,江苏省 无锡市 214083
国内会议
2011年全国高性能计算学术年会(HPC china2011)
济南
中文
1-4
2011-10-26(万方平台首次上网日期,不代表论文的发表时间)