驱动说话人头部动画的连续语音识别系统

摘要：

为实现听觉/视觉驱动的说话人头部动画,本文建立了一个基于viseme(视觉领域的语音基本单位)的连续语音识别系统,它采用triseme的概念来考虑viseme的上下文相关性,识别语音为viseme图像序列.根据viseme图像及其相似度权值(VSW),本文定义了有166个问题的视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享.为比较系统性能,还定义了viseme图像相似度加权识别精度,并用嘴形圆度和VSW曲线中的突变点来评估说话人头部动画的平滑性.结果表明,与基于phoneme(听觉领域的语音基本单位)的系统相比,本文基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列和说话人头部动画.

关键词：说话人头部动画 viseme triseme决策树 viseme图像相似度加权语言识别

作者: 蒋冬梅谢磊赵荣椿

作者单位: 西北工业大学计算机科学与工程系

会议类型: 国内会议

会议名称: 中国航空学会信号与信息处理专业第六届学术会议

会议地点: 昆明

会议语种:中文

页码: 266-269

在线出版日期: 2002-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

驱动说话人头部动画的连续语音识别系统