会议专题

基于Nagios的监控平台的设计与实现

本文主要结合中科院超级计算环境三层架构的模式,针对其中多个服务器设计并实现了一个分布式的监控平台,旨在较快并准确的了解基础设施的运行情况,更好的管理各个服务器。本文首先介绍了Nagios的基本概念、相关原理;然后结合超级计算环境的特点提出了监控平台的整体结构图,软件如何部署以及防火墙的设置等方面;最后实现了这一监控平台。通过监控界而可清晰的了解各个服务器的运行情况,集群的使用状况,异常发生时会以邮件的形式通知管理员,方便了日常运维管理工作。对于集群的监控,虽然目前只对CPU和节点利用率做了相应处理,能以图表的形式展示给大家,但其他的数据,如运行作业、排队作业、运行核数、排队核数等已经能够获取到,下一步工作时会把这些数据也图表化显示,更形象直观的反映集群的使用情况。

监控平台 Nagios系统 分布式架构 超级计算环境

和荣 肖海力

中国科学院计算机网络信息中心,北京 100190

国内会议

第四届中国科学院超级计算机应用大会

西宁

中文

77-85

2014-08-21(万方平台首次上网日期,不代表论文的发表时间)