会议专题

深度神经网络的语音深度特征提取方法

为了提升连续语音识别系统性能,将深度自编码器神经网络应用于语音信号特征提取.通过堆叠稀疏自编码器组成深度自编码器(Deep Auto-Encoding,DAE),经过预训练和微调两个步骤提取语音信号的本质特征,使用与上下文相关的三音素模型,以音素错误率大小为系统性能的评判标准.仿真结果表明相对于传统梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征以及优化后的MFCC特征,基于深度自编码器提取的深度特征更具优越性.

语音识别 深度自编码器 梅尔频率倒谱系数 特征提取

李涛 曹辉 郭乐乐

陕西师范大学物理学与信息技术学院,陕西西安710100

国内会议

2018中国西部声学学术交流会

兰州

中文

367-371

2018-08-23(万方平台首次上网日期,不代表论文的发表时间)