会议专题

基于SRILM的阿拉伯和维吾尔文语言模型建立方法

本文主要讨论在Cygwin的环境下利用SRILM工具包建立基于词的阿拉伯文和维吾尔文语言模型并在语料库上进行测试。为了解决数据稀疏问题,我们主要研究几种平滑算法。我们采用“困惑度”作为评价语言模型性能的指标。最后,本文给出平滑化后的语言模型在语料库重的测试结果。

阿拉伯语 维吾尔语 N-gram 语言模型 困惑度 平滑算法

努尔艾力·喀迪尔 彭良瑞

清华信息科学与技术国家实验室 智能技术与系统国家重点实验室 清华大学电子工程系,北京,100084,中国

国内会议

第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会

乌鲁木齐

中文

87-90

2010-06-27(万方平台首次上网日期,不代表论文的发表时间)