会议专题

基于自主计算的集群故障管理系统结构设计

  随着计算机技术的不断发展,系统规模的不断扩大,高可用集群系统的管理和维护变得越来越复杂。为了提供稳定的计算环境,并及时发现定位系统中的故障隐患,提出了故障的主动管理方法。本文首先分析了自主计算的相关概念和技术,在分析集群计算环境管理需求的基础上,提出了一种基于规则的自主故障管理软件结构。该方法根据集群系统的特点,选择分级管理方式,设计了局部故障管理模块(LFM)和全局故障管理模块(GFM),并具体说明了二者内部的功能结构。

集群计算机 计算机维护 故障管理 软件工具

李璟 刘宏伟 董剑 舒燕君

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001

国内会议

第十四届全国容错计算学术会议

北京

中文

1-5

2011-07-30(万方平台首次上网日期,不代表论文的发表时间)