基于短语统计机器翻译模型蒙古文形态切分
该文结合最小上下文构成代价模型。借鉴并利用统计机器翻译的方法,尝试解决蒙古文形态切分问题。基于短语的统计机器翻译形态蒙文切分模型和最小上下文构成代价模型分别对词表词和未登录词进行形态切分。前者选取了短语机器翻译系统中三个常用的模型,包括短语翻译模型、词汇化翻译模型和语言模型。最小上下文构成代价模型考虑了一元词素上下文环境和词缀N-gram上下文环境。实验结果显示:基于短语统计机器翻译形态切分模型对词表词切分,最小上下文构成代价模型对未登录词处理后,总体的切分准确率达到96.94%.此外,词素融入机器翻译系统中后,译文质量有了显著的提高,更进一步的证实了本方法的有效性和实用性。
蒙古文 信息处理 形态切分 机器翻译 短语统计模型
李文 李淼 梁青 朱海 应玉龙 乌达巴拉
中国科学院合肥智能机械研究所,安徽合肥 230031 中国科学技术大学自动化系,安徽合肥 230027 中国科学院合肥智能机械研究所,安徽合肥 230031 大同电力高级技工学校,山西大同037039
国内会议
呼和浩特
中文
122-128
2011-07-29(万方平台首次上网日期,不代表论文的发表时间)