基于形态信息的汉蒙翻译模型和语言模型构造方法研究

以计算技术和语料库为基础的统计机器翻译方法,提高了语言翻译自动化程度。在汉蒙统计机器翻译中,由于源语言与目标语言存在着的差异,单纯应用统计机器翻译方法进行汉语到蒙古语的翻译,导致译文中出现的词形错误等问题,因为汉语属于形态缺乏的语言,而蒙古语却是形态非常丰富的语言,在从汉语对应蒙古语时会出现一种汉语形式对应多种蒙古语形式的情况。针对这种情况,本文提出利用目标语言的形态信息构造统计模型的研究方案。该方法对改善因蒙古语词形变化引起的译文错误以及由语料库规模限制所带来的数据稀疏等问题具有理论研究与实际应用的意义,可为黏着性语言的统计机器翻译探索一种新的思路。
形态信息 语言模型 统计机器翻译 黏着性语言 语料库 汉蒙翻译模型
乌达巴拉 胡泽林 雪艳 杨攀 应玉龙 朱海
中国科学院合肥智能机械研究所,230031 内蒙古大学蒙古学研究院
国内会议
合肥
中文
334-341
2008-10-07(万方平台首次上网日期,不代表论文的发表时间)