一种改进词语对齐的新方法

摘要：

词语对齐是目前主流的统计机器翻译系统的基本模块，GIZA++是词语对齐最常用的工具，但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发，提出了一种改进词语对齐结果的方法：首先，识别双语命名实体;其次，用标记替换双语命名实体;再次，用GIZA++重新进行词语对齐;最后，将标记还原为原始的命名实体。实验表明，针对基于短语的机器翻译系统，该方法提高了NIST值，并且该方法还有改进空间。

关键词：词语对齐命名实体统计机器翻译

作者: 罗维吉宗诚吕雅娟刘群

作者单位: 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190 中国科学院研究生院,北京,100049 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190

会议类型: 国内会议

会议名称: 第五届全国青年计算语言学研讨会(YWCL 2010)

会议地点: 武汉

会议语种:中文

页码: 282-288

在线出版日期: 2010-10-11（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种改进词语对齐的新方法