高性能计算集群自治管理系统的研究
高性能集群具有大规模、廉价,高性能的特点,在提供给用户高性能的计算能力的同时,也给管理员对集群的管理带来了复杂性.目前集群管理系统还停留在管理员察看数据和事件并做出判断的阶段,给高性能集群的使用造成了庞大的管理开销.为了自动化管理员的操作,降低集群管理的复杂性,本文在分析大规模集群的自治需求的基础上,提出一种新型的集群自治框架, 提供整体化自治管理方案.通过使用中间件技术提供了良好的可扩展性和安全性,通过UI提供了异步更新和良好的可交互性,使得集群管理系统具有整体化的自我成型、自我愈合、自我保护、自我优化的属性.结合曙光DCAS系统,在动态负载均衡系统上实现,取得了良好的效果.
高性能计算 自治计算 集群管理 动态负载均衡
马元 曾宇 聂华 历军
中国科学院计算技术研究所,国家智能计算机研究开发中心,北京,100080;中国科学院研究生院,北京,100039 中国科学院计算技术研究所,国家智能计算机研究开发中心,北京,100080
国内会议
北京
中文
2006-10-27(万方平台首次上网日期,不代表论文的发表时间)