会议专题

采用DBN的TV改进方法在语种识别中的应用

近年来基于深度神经网络(Deep Neural Network,DNN)的全差异空间建模方法(Total Variability,TV)在语种识别领域得到了广泛研究.本文提出了一种基于DNN的改进TV方法,既利用了DNN对数据的音素状态对齐效果,又充分考虑了语种任务的相关性.该方法首先利用带有瓶颈层的深层神经网络(Deep Bottleneck Net-work,DBN)对语种数据特征按照音素状态进行聚类,得到语种任务相关通用背景模型(Universal Background Mod-el,UBM),然后利用该UBM模型并结合深度瓶颈特征(Deep Bottleneck Feature,DBF)进行TV建模.实验表明,与经典的TV方法相比,该方法能够显著的提升系统性能和效率,并且融合后性能得到了进一步提升.

语种识别 深度神经网络 全差异空间建模 音素状态

洪新海 宋彦 蒋兵 戴礼荣

中国科学技术大学语音及语言信息处理国家工程实验室,安徽合肥230027

国内会议

第十七届全国信号处理学术年会

天津

中文

1152-1158

2015-10-01(万方平台首次上网日期,不代表论文的发表时间)