会议专题

统计句法分析中的零概率问题及解决方法

数据稀疏问题是目前统计句法分析的一个很大难题,在很大程度上限制着句法分析器正确率的提高.数据稀疏在基于概率上下文无关文法的句法分析中的一个表现就是零概率问题.当遇到训练语料库中不存在的规则时,由于基于概率上下文无关文法的句法分析中概率值采用连乘积形式的局限性,使整个句子的概率为零,因而认为句子是不合法,即使它们是正确的.本文采用了数据平滑技术并加以改进来解决该问题.通过实验证明采用此方法使句法分析中的零概率问题得以缓解.

PCFG 最大似然估计 数据稀疏 零概率问题 Good-Turing平滑

皮晓峰 左志宏

电子科技大学,计算机科学与工程学院,四川,成都,610054

国内会议

中国科学院计算技术研究所第八届计算机科学与技术研究生学术讨论会

大连

中文

113

2004-07-01(万方平台首次上网日期,不代表论文的发表时间)