驱动说话人头部动画的连续语音识别系统
为实现听觉/视觉驱动的说话人头部动画,本文建立了一个基于viseme(视觉领域的语音基本单位)的连续语音识别系统,它采用triseme的概念来考虑viseme的上下文相关性,识别语音为viseme图像序列.根据viseme图像及其相似度权值(VSW),本文定义了有166个问题的视觉问题集,用来建立triseme决策树,以实现triseme的状态捆绑及HMM参数共享.为比较系统性能,还定义了viseme图像相似度加权识别精度,并用嘴形圆度和VSW曲线中的突变点来评估说话人头部动画的平滑性.结果表明,与基于phoneme(听觉领域的语音基本单位)的系统相比,本文基于viseme的语音识别系统能给出更平滑和合理的嘴形图像序列和说话人头部动画.
说话人头部动画 viseme triseme决策树 viseme图像相似度加权 语言识别
蒋冬梅 谢磊 赵荣椿
西北工业大学计算机科学与工程系
国内会议
昆明
中文
266-269
2002-10-01(万方平台首次上网日期,不代表论文的发表时间)