集群系统中并行计算的高可用管理
在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加。为提高集群系统的可靠性和可用性,针对并行计算环境的特点,在利用改进型检查点迁移机制的基础上,分析了集群系统中并行计算高可用管理的关键技术,给出了高可用管理模块的实现方法,可实现集群系统中计算节点的故障自探测、任务自恢复功能。通过验证,证明了该方法的有效性。
集群系统 并行计算 高可用管理 进程迁移 自恢复功能
昌玉芳 杨升春 刘天田 欧中红
武汉数字工程研究所 产品研发部,武汉 430074
国内会议
海拉尔
中文
11-15
2009-07-20(万方平台首次上网日期,不代表论文的发表时间)