PFMonitor:一种大规模异构机群的监控系统
为了获取更高的计算能力,目前机群的规模越来越大,并且最新的机群系统中引入异构计算加速节点以提高系统的效率.针对当前最新的机群系统规模增大以及异构加速节点的引入导致的监控需求变化,我们在现有监控系统的研究基础之上,设计 并实现了一个适用于大规模和异构机群设计的监控系统——PFMonitor.在监控代理端,PFMonitor 采用类似Linux 内核的可插 拔模块化机制,使得能在被监控节点上灵活定制和装配各种监控模块,用以满足异构环境下多样化的监控需求;在主监控程序 端采用N-层树形体系结构和路径查询机制实现良好系统规模扩展性.实验表明,PFMonitor的设计与实现方式既能满足功能上的需求,而且具有良好的性能.
异构机群 机群监控 N-层树 路径查询 监控系统
肖育前 祝明发 肖利民 阮利
软件开发环境国家重点实验室,北京 100191;北京航空航天大学计算机学院,北京 100191
国内会议
2010年全国高性能计算学术年会(HPC china2010)
北京
中文
479-488
2010-10-27(万方平台首次上网日期,不代表论文的发表时间)