会议专题

一种改进词语对齐的新方法

词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名实体;其次,用标记替换双语命名实体;再次,用GIZA++重新进行词语对齐;最后,将标记还原为原始的命名实体。实验表明,针对基于短语的机器翻译系统,该方法提高了NIST值,并且该方法还有改进空间。

词语对齐 命名实体 统计机器翻译

罗维 吉宗诚 吕雅娟 刘群

中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190 中国科学院研究生院,北京,100049 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190

国内会议

第五届全国青年计算语言学研讨会(YWCL 2010)

武汉

中文

282-288

2010-10-11(万方平台首次上网日期,不代表论文的发表时间)