会议专题

基于多GPU的并行BP算法及优化

在语音识别领域,基于深度神经网络(Deep Neural Network,DNN)的声学模型与传统的基于高斯混合模型的声学模型相比取得了出色的识别效果.由于DNN的网络模型非常庞大,网络参数可以达到40263680,使用误差反向传播算法(BP)对其训练是一个异常耗时的过程.目前通常使用高性能的GPU设备对BP训练进行加速.本文探究了BP训练算法在多GPU设备上并行化时所存在的收敛性和带宽问题,并结合NVIDIAKepler架构的硬件特性提出一种并行优化策略.实验结果表明优化后的算法可以有效地增加小mini-batch下的GPU利用率,同时减少了数据传输的开销.在相同的mini-batch尺寸下,优化后的算法在4块K20m设备上与单个K20m设备相比可以取得高达3.89倍的加速比.

语音识别 深度神经网络 误差反向传播算法 并行优化 多图形处理器

吕亚飞 于振华 张致江 赵增 顾乃杰

中国科学技术大学 计算机科学与技术系,合肥 230027;中国科学技术大学 中科院沈阳计算所 网络与通信联合实验室,合肥 230027 科大讯飞股份有限公司,合肥 230027

国内会议

2014全国高性能计算学术年会

广州

中文

276-283

2014-11-06(万方平台首次上网日期,不代表论文的发表时间)