融合语言学知识与数据驱动方法进行音素聚类的多语言音素建模方法
本文首先提出了以音子合并后模型自身似然度下降为距离依据,通过聚类生成多语言通用音子的声学建模方法。在此基础上,比较了聚类时增加两种限制条件(同一语种内音子不聚类、不同IPA族的音子不聚类)对性能的影响。最后的实验给出了建立中英文双语混合模型在关键词检出系统上的结果,比较了几种聚类方法在不同通用音子个数情况下的性能优劣。结果显示,使用音子聚类方法进行一定程度的音子合并,性能比不作聚类直接混合建模有明显地提升;适当增加音子聚类的限制,有助于进一步提高性能。
多语言声学建模 音素聚类 音子合并
孟猛 梁家恩 徐波
中科院自动化研究所数字内容技术研究中心,北京 100080
国内会议
北京
中文
335-340
2007-12-11(万方平台首次上网日期,不代表论文的发表时间)