基于音素相关后验概率变换的发音质量评价

摘要：

　　帧规整对数后验概率是目前公认最有效的发音质量的度量。本文证明了该度量反映了当前发音对应的声学模型与概率空间中声学模型的混淆程度，使其在评分任务上存在着严重的缺陷。因此提出了可训练的音素相关的后验概率变换；并研究了线性和非线性sigmoid变换，同时给出线性变换的显式全局最优解和非线性变换的梯度下降解法。在全国采集的普通话水平测试现场考试的篇章朗读题型上进行实验。实验结果表明：当概率空间包含所有音素时，该方法能使人机相关度从0.582 提升至0.768；当采用优化的概率空间时，该方法能使人机相关度从0.680提升至0.773。

关键词：汉语发音音素度量后验概率数理语言学

作者: 严可魏思戴礼荣刘庆峰

作者单位: 中国科学技术大学电子信息工程,合肥 230027 安徽科大讯飞股份有限公司,合肥 230027 中国科学技术大学电子信息工程,合肥 230027 安徽科大讯飞股份有限公司,合肥 230027

会议类型: 国内会议

会议名称: 第十一届全国人机语音通讯学术会议

会议地点: 西安

会议语种:中文

页码: 1-4

在线出版日期: 2011-10-16（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于音素相关后验概率变换的发音质量评价