会议专题

基于裁剪门限改进的Katz平滑算法

平滑算法是统计语言模型中解决数据稀疏性问题的有效且非常重要的技术,在现有的众多平滑算法中,基于Good-Turing折扣方法和Back Off的预测方法的Katz平滑算法应用最为广泛传统的Katz平滑算法在计算折扣系数时要求一次事件必须出现,对所有语料库这一条件并非一定满足,并且当对高阶n元对进行裁剪时问题尤为严重.本文从Katz推导折扣系数公式的约束条件出发,扩展了约束条件,推导出仅依赖于语料中出现的最小次数或裁剪门限的折扣系数计算公式.在困惑度、语音识别率和音字转换率三个方面进行了实验比较,结果显示本文提出的基于裁剪门限改进的Katz平滑算法得到的模型一致辞优于传统Katz平滑算法得到的语言模型.

语音识别 语言模型 平滑算法 裁剪门限

胡晟 张树武 徐波

中科院自动化所高科技创新中心(北京)

国内会议

第七届全国人机语音通讯学术会议

厦门

中文

31-36

2003-11-01(万方平台首次上网日期,不代表论文的发表时间)