会议专题

LVCSR系统中语言模型的参数选择与性能评测

在大词表连续语音识别系统中,语言模型不仅实现了拼音到汉字的转换,同时通过语言模型概率值结合声学HMM模型匹配值能协助搜索过程中有效剪枝从而避免了搜索空间的指数膨胀.然而在LVCSR系统中,语言模型的截止(Cutoff)词频、模型大小、训练与测试语料的复杂度及对未出现文法概率的各种处理技术对系统性能的影响是各不相同的.本文将着重分别探讨这些参数和技术对我们识别系统的影响.我们进行了四个循序渐进实验,通过调节模型参数,模型权重和Discounting策略,使LVCSR系统的误识率下降到10.0﹪.

连续语音识别系统 语言模型 参数选择 模型权重 性能评测

张建平 庹凌云 孙宝海 汪俊杰 刘建 颜永红

中国科学院声学研究所中科信利语音实验室

国内会议

第六届全国现代语音学学术会议

天津

中文

548-552

2003-10-01(万方平台首次上网日期,不代表论文的发表时间)