多源混响声学环境语音交互前端处理--方法和实践
本文从综述性角度,结合笔者在该领域的部分研究进展和实践经验,系统阐述现有语音前端信号处理方法和技术.语音交互前端信号处理是自然语音人机交互和人人语音通信系统中,重要而又极具挑战的环节.现实生活的声学环境都是多声源,有混响的.多源混响声学环境使得语音前端信号处理的鲁棒性受到制约,声学回波、环境噪声、房间混响以及非目标的任何干扰信号都会增加目标语音信号的拾取难度,从而影响人机交互和人人通信系统的自然体验.多通道语音增强利用了传声器阵列拾取空间信息的能力,可以结合时域、频域以及空间信息,获得带有空间区分性的接收能力。根据不同的处理原理,多通道语音增强方法可以分为三类:线性波束形成方法、非线性波束形成方法以及基于盲源分离的方法。要在拾取到的信号中消除混响影响,是一个比较困难的盲问题。目前的研究主要包括3种思路:波束形成方法;盲系统辨识的方法;谱增强的方法。利用声学回声消除技术,通过对扬声器和麦克风之间的回声传播路径进行系统辨识,自适应地估计回声信号,从而消除近端传声器中的回声成分,提高语音质量。
语音交互 前端信号处理 多源混响 鲁棒性
付强 王晓飞 颜永红
中国科学院声学研究所,北京,100190
国内会议
第五届电声技术国际研讨会( International Symposium on ElectroAcoustic Technologies)(ISEAT 2015)
深圳
中文
163-171
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)