语音编码对说话人识别系统的影响
本文研究了语音编码对文本无关说话人识别性能的影响.在说话人识别系统中,采用的是高斯混合模型(GMM).采用的数据库是TIMIT语料库。研究了五种语音编码对说话人识别的影响,包括:GSM FR(13kbps)、G.729(8kbps)、G.723.1 MP-MLQ(6.3kbps)、G.723.1 ACELP(5.3kbps)和MELP(2.4kbps).首先分析了上述五种语音编码对语音特征参数的影响。这些参数包括:线性预测倒谱参数(LPCC),美尔频率倒谱系数(MFCC),语音信号的频谱以及基音周期.实验结果表明语音编码对语音特征参数的影响具有一定的规律性,可以这些利用这些规律去修改模型来降低语音编码对说话人识别的影响.然后说话人辨认实验结果表明语音编码降低了说话人辨认系统的识别率,尤其是在训练语音和测试语音不匹配的情况下,系统性能下降得更为严重。并且从实验结果还可以看出,说话人辨认系统的性能随着编码速率的降低而降低。最后,针对语音编码的影响,给出了一种修改GMM模型的方法来提高说话人识别系统的性能,结果表明,这种方法是有效的.
说话人识别 语音编码 特征参数失真 高斯混合模型 TIMIT语料库
石如亮 李弼程 王波
郑州市1001信箱835分箱,450002
国内会议
第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议
杭州
中文
46-54
2006-10-31(万方平台首次上网日期,不代表论文的发表时间)