频谱中包含语音分类的信息量

提取能表达语音性质的特征参数是语音识别最重要的步骤之一。听觉系统使用频域和时域两类信息识别语音,但目前的语音特征参数主要提取自声音的频谱,那么由频谱能提供多少语音分类的信息呢?这是本文的研究目的。文中首先通过响度密度谱、MFCC参数和PLP参数的欧氏距离比较,研究谱信息在单元音静态识别中的表现。然后通过构建HMM,在不同参数维数下对所有能独立发音的汉语韵母进行识别,测试这些谱表达式在加入时域变化信息后在元音动态识别中的表现。实验结果表明频谱可以提供元音分类的信息最少是93.3%,加入时间信息后,总识别率提高了3.5%,识别效果最好的元音是/I/,效果不佳的是/γ/。
响度密度谱 激励模式 元音识别 模式匹配
谷洁平 于水源 王煜刚
中国传媒大学信息工程学院 100024
国内会议
天津
中文
309-314
2010-05-28(万方平台首次上网日期,不代表论文的发表时间)