会议专题

基于短语的汉语N-gram语言模型研究

N-gram统计语言模型因其鲁棒性强、简洁、有效等特点成为当前的主流语言建模技术,但其本身存在难以克服的缺点:不能有效处理长距离语言约束;统计信息有时也不能反映真实的语言规律.语言规则分析能解决这些问题,但面向大规模应用的真实文本不能进行安全的句法分析.本文提出一种基于短语的N-gram汉语语言模型,利用规则分析产生短语,利用N元概率获得最佳短语序列,取代句法分析.为构造此模型,本文分别提出了N元概率的近似估计方法、基于互信息的短语规则的量化方法,对规则获取和分析进行了阐述.模型初步应用于汉语智能音字转换,有效解决了上述问题,同时明显降低了音字转换错误率.

N-gram语言模型 短语分析 音字转换 汉语语言

刘秉权 王晓龙 王轩 关毅

哈尔滨工业大学计算机系(哈尔滨)

国内会议

863计划智能计算机主题学术会议

北京

中文

355-361

2001-02-01(万方平台首次上网日期,不代表论文的发表时间)