支持AFS环境的批作业管理系统PAFSI的研究与实现

采用TORQUE+Maui 作为作业管理系统,以及AFS 作为共享文件系统是实现大规模集群系统的常用技术之一。但是,目前在AFS 环境中向TORQUE 提交作业还存在一些问题。由于AFS 系统采用Kerberos 认证机制,每个AFS tokens 具有有限的生命周期,当作业运行时间大于tokens 的生命周期时,用户无法写回AFS 系统。鉴于PBS 的不足和AFS 系统读写认证的特殊性,本文设计了支持AFS 环境的批作业管理系统PAFSI(PBS and AFS Integration),有效地弥补了传统作业管理系统的不足,保证用户在AFS 的用户目录下提交的各种作业,都能正确的将数据写回用户的AFS 目录。本文首先介绍了传统的作业管理系统的特点及AFS 读写认证的特殊性,接着给出PAFSI 系统的基本架构,并详细阐述了系统的设计和实现。
批作业管理系统 认证机制 系统架构 AFS环境
黄秋兰 Fabio Hernandez 石京燕 程耀东 陈刚
中国科学院高能物理研究所计算中心 100049
国内会议
成都
中文
1-6
2011-07-04(万方平台首次上网日期,不代表论文的发表时间)