会议专题

多发音方式下的说话人识别研究

人在说话的时候有各种各样的发音方式,如不同的语言;带情感的发音;快速与慢速、大声与小声等等。如果不做任何处理,直接用传统的说话人识别方法来处理,结果会比较差。因此,本论文研究如何降低由人的发音方式不同而导致的说话人识别性能下降。首先,进行多发音方式数据采集的设计,选择现实生活中常见的发音方式做研究;接下来在模型域提出基于多发音方式背景模型融合和模型补偿的改进系统方案;最后给出基线系统和改进系统的实验和分析结果。实验表明,由人的因素产生的发音方式不同对说话人识别有着重要的影响,本文论述的方法能够有效降低此影响。

说话人识别 发音方式 多系统融合 模型补偿 鲁棒性

张利鹏 王琳琳 徐明星

清华大学计算机科学与技术系 智能技术与系统国家重点实验室 清华信息科学技术国家实验室,北京 100084

国内会议

第十届全国人机语音通讯学术会议

乌鲁木齐

中文

290-294

2009-08-14(万方平台首次上网日期,不代表论文的发表时间)