Audio-visual Interaction in Model Adaptation for Multi-modal Speech Recognition

摘要：

This paper investigates audio-visual interaction, I.e. Inter-modal in.uences, in linear-regressive model adaptation for multi-modal speech recognition. In the multi-modal adaptation, inter-modal information may contribute the performance of speech recognition. Thus the in.uence and advantage of intermodal elements should be examined. Experiments were conducted to evaluate several transformation matrices including or excluding inter-modal and intra-modal elements, using noisy data in an audio-visual corpus. From the experimental results, the importance of effective use of audio-visual interaction is clari.ed.

作者: Satoshi Tamura Masanao Oonishi Satoru Hayamizu

作者单位: Department of Information Science, Gifu University, Japan

会议类型: 国际会议

会议名称: 2011亚太信号与信息处理协会年度峰会(APSIPAASC 2011)

会议地点: 西安

会议语种:英文

页码: 1-4

在线出版日期: 2011-10-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

Audio-visual Interaction in Model Adaptation for Multi-modal Speech Recognition