会议专题

多核集群中系统噪音的测量

  并行程序在运行过程中,位于计算节点上的进程经常由于CPU要处理来自硬件、固件、节点操作系统、系统管理软件等部件的干扰而被迫中断,这些由于系统部件所引起的计算进程中断被称之为“系统噪音”.相关研究表明,噪音的叠加对大规模并行程序的性能有较大影响,特别是当前的大规模集群系统,单节点数十核、全系统数万核,需要对系统噪音进行精确的量化分析.本文在总结相关研究的基础上,实现了一个低开销、可扩展性好的噪音测量软件NoiseProfiler.该软件实现固定工作量、固定时间量、噪音序列三种噪音测量方法,能够从不同视角刻画系统的噪音特征;实现单核、单CPU、全节点三种测量流程,分别针对多核集群系统的多种使用模式;低时间开销,在2000个节点上测量时间最长1458秒;具有良好的可扩展性,节点数量从125增加到2000,其测量总时间仅增加3.9%.应用到某单位生产系统P上,检测到P内存在两类较大噪音源,通过改进系统、消除噪音源,实际并行程序的测试性能分别提升38.5%、48%.

并行程序 多核集群系统 噪音测量 性能优化

武林平 Wu Linping 魏勇 Wei Yong 刘旭 Liu Xu

北京应用物理与计算数学研究所 高性能计算中心,北京 100094 Institute of Applied Physics and Computational Mathematics, Beijing 100094, China 北京应用物理与计算数学研究所 高性能计算中心,北京 100094;计算机体系结构国家重点实验室,中国科学院计算技术研究所,北京,100190 Institute of Applied Physics and Computational Mathematics, Beijing 100094, China;State Key Laborato

国内会议

2012全国高性能计算学术年会

张家界

中文

1-9

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)