会议专题

汉英双语混合声学建模方法初探

本文从直接合并汉英双语的phoen set入手,对三种不同的汉英双语混合声学建模方法进行了研究.这三种方法分别是:(1)直接合并二者的phone set进行声学建模,汉英两种语言之间没有共享的phoe;(2)基于国际音标协会(International Phonetic Association,简称IPA)的统一声学表示,把汉英双语的部分phone用国际音标进行共享,使得双语的Phone Set更加紧凑,然后进行双语混合声学建模;(3)对汉英双语的Phone进行合并聚类,使用聚类后的Phone Set和(2)有同样数目的Phone,以便进行比较研究,在这里,我们使用了两种不同的距离度量,一种是Bhattacharyya距离,另一种是似然度准则.实验结果表明,方法(1)的声学模型较为鲁棒,但是建模单元也最多,模型不够紧凑;方法(2)具有紧凑的模型,但是鲁棒性最差;方法(3)在使用Bhattacharyya距离进行聚类时,以较少的Phone进行双语混合声学建模,不仅保持了(2)中模型紧凑的特点,而且基本达到(1)的识别率;特别是当使用似然度准则时,英语的识别率甚至超过了(1),而汉语的识别率也有进一步提高.

多语言语音识别 汉英双语 混合声学建模 识别率

于胜民 张树武 徐波

中科院自动化所高技术创新中心(北京)

国内会议

第七届全国人机语音通讯学术会议

厦门

中文

308-312

2003-11-01(万方平台首次上网日期,不代表论文的发表时间)