一种自适应概率语言模型的训练方法及其应用于中文分词

摘要：

本文提出一种自适应的概率语言模型的训练方法,采用EM迭代优化算法在未切分的语料库上训练概率语言模型的参数.本文用该算法训练了中文的基于词的N-gram模型,并应用于概率分词.实验结果显示,该算法能显著地改善汉语分词的精度.

关键词：语言模型词网格 EM算法概率分词

作者: 徐志明揭春雨 Jonathan Webster

作者单位: 香港城市大学中文、翻译及语言学系;哈尔滨工业大学计算机学院香港城市大学中文、翻译及语言学系

会议类型: 国内会议

会议地点: 哈尔滨

会议语种:中文

页码: 73-78

在线出版日期: 2003-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题