基于HMM的维吾尔语连续语音识别系统

摘要：

维吾尔语是黏着性语言，利用丰富的词缀可以用同样的词干产生超大词汇，给维吾尔语语音识别的研究工作带来了很大困难。本文结合维吾尔语自身特点，建立了维吾尔语连续语音语料库，利用HTK(HMMToolKit)工具实现了基于HMM(Hidden Markov Model)的维吾尔语连续语音识别系统。在声学层，选取三音子作为基本的识别单元，建立了维吾尔语的三音子声学模型，并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层，使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后，利用该系统进行了大量的识别实验。

关键词：维吾尔语连续语音语音识别 HMM模型词缀二元文法语言模型

作者: 那斯尔江·吐尔逊吾守尔·斯拉木

作者单位: 西安交通大学电子与信息工程学院,西安陕西 710049 新疆大学数学与系统科学学院,乌鲁木齐新疆 830046 新疆大学信息科学与工程学院,乌鲁木齐新疆 830046

会议类型: 国内会议

会议名称: 第二届全国少数民族青年自然语言处理学术研讨会

会议地点: 合肥

会议语种:中文

页码: 272-278

在线出版日期: 2008-10-07（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于HMM的维吾尔语连续语音识别系统