GMM-UBM和SVM说话人辨认系统及融合的分析
在说话人辨认任务中,高斯混合模型-通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)采用帧向量进行建模和识别,突出了说话人个性特征,但受信道影响较大;支持向量机(support vector machine, SVM)利用帧向量在空间中分布的高斯混合的均值进行建模和识别,对信道的鲁棒性较好,但对说话人的个性体现不够。本文分析了这两种说话人识别系统的优缺点,并采用融合方法来提高系统的性能。在NIST 评测数据集的实验中,融合系统的等错误率从GMM-UBM 系统的9.30%和SVM 系统的8.26%降低到7.34%,分别相对降低了21.08%和11.14%。
信息处理 说话人辨认系统 高斯混合模型-通用背景模型 支持向量机 信道鲁棒
鲍焕军 郑方
清华大学,信息技术研究院语音和语言技术中心,北京,100084,中国
国内会议
安徽黄山
中文
2007-10-21(万方平台首次上网日期,不代表论文的发表时间)