会议专题

多模式汉语连续语音识别中视觉特征的提取和应用

本文讨论了多模式汉语语音识别系统的整体模型和视觉特征利用中的若干关键技术.我们给出了基于多流隐马尔科夫模型(Multi-stream Hidden Markov Model,MSHMM)的听视觉融合方案,并对于用最小错误准则进行音频和视频流权重训练进行了简单介绍.并着重对系统中有关视觉特征的几项主要技术:嘴唇定位、视觉特征提取(Visual Feature Extraction,VFE)和听视觉融合加以详细讨论.首先,我们研究了基于模板匹配的嘴唇跟踪方法;然后研究了基于数据驱动的线性变换的低级视觉特征提取方法,并与基于唇形的动态形状模型特征提取作了比较;实验结果表明,引入视觉信息以后,在干净的语音环境下,连续语音识别系统的声学层产首选字错误率相对一降了36.09﹪,而在噪声环境下,系统的鲁棒性也有明显提高.

语音识别 视觉特征提取 听视觉融合 连续语音

刘鹏 王作英

清华大学电子工程系网络与人机语音通信研究所

国内会议

第七届全国人机语音通讯学术会议

厦门

中文

104-108

2003-11-01(万方平台首次上网日期,不代表论文的发表时间)