一种自适应概率语言模型的训练方法及其应用于中文分词
本文提出一种自适应的概率语言模型的训练方法,采用EM迭代优化算法在未切分的语料库上训练概率语言模型的参数.本文用该算法训练了中文的基于词的N-gram模型,并应用于概率分词.实验结果显示,该算法能显著地改善汉语分词的精度.
语言模型 词网格 EM算法 概率分词
徐志明 揭春雨 Jonathan Webster
香港城市大学中文、翻译及语言学系;哈尔滨工业大学计算机学院 香港城市大学中文、翻译及语言学系
国内会议
哈尔滨
中文
73-78
2003-08-01(万方平台首次上网日期,不代表论文的发表时间)