会议专题

集群系统中并行计算的高可用管理

在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加。为提高集群系统的可靠性和可用性,针对并行计算环境的特点,在利用改进型检查点迁移机制的基础上,分析了集群系统中并行计算高可用管理的关键技术,给出了高可用管理模块的实现方法,可实现集群系统中计算节点的故障自探测、任务自恢复功能。通过验证,证明了该方法的有效性。

集群系统 并行计算 高可用管理 进程迁移 自恢复功能

昌玉芳 杨升春 刘天田 欧中红

武汉数字工程研究所 产品研发部,武汉 430074

国内会议

第十三届全国容错计算学术会议

海拉尔

中文

11-15

2009-07-20(万方平台首次上网日期,不代表论文的发表时间)