基于EigenVoice 模型自适应的语音合成话者转换方法
在语音合成领域为实现说话人之间的转换,通常使用基于隐马尔可夫模型的最大似然线性回归(MLLR)方法,该方法和源说话人与目标说话人相似程度,及自适应数据多少有非常大关系。在只有1~5句极少量数据时MLLR自适应效果就比较差,为了改善此时的自适应效果,我们将基于EigenVoice 思想的模型自适应方法应用到语音合成的说话人转换中。其主要方法是对多个话者模型共享决策树聚类,做主成分分析提取特征模型,使用最大似然准则求解模型权值和加权累加,得到自适应以后的模型进行文本相关的合成。本文通过该自适应方法的合成语音与MLLR自适应合成语音的主客观对比实验,显示了该方法在数据少时能够有效地降低转换后合成语音与相应自然语音之间的误差, 提升自适应效果,并在此基础上分析其局限性和改进思路等。
EigenVoice模型 语音合成 隐马尔可夫模型 最大似然线性回归
赵欢欢 凌震华 秦龙 王仁华 戴礼荣
中国科学技术大学,电子工程与信息科学系,讯飞语音实验室,安徽合肥,230027
国内会议
安徽黄山
中文
2007-10-21(万方平台首次上网日期,不代表论文的发表时间)