一种改进词语对齐的新方法
词语对齐是目前主流的统计机器翻译系统的基本模块,GIZA++是词语对齐最常用的工具,但是GIZA++的对齐结果仍然存在不足。本文从约束双语命名实体之间的对齐的角度出发,提出了一种改进词语对齐结果的方法:首先,识别双语命名实体;其次,用标记替换双语命名实体;再次,用GIZA++重新进行词语对齐;最后,将标记还原为原始的命名实体。实验表明,针对基于短语的机器翻译系统,该方法提高了NIST值,并且该方法还有改进空间。
词语对齐 命名实体 统计机器翻译
罗维 吉宗诚 吕雅娟 刘群
中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190 中国科学院研究生院,北京,100049 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190
国内会议
武汉
中文
282-288
2010-10-11(万方平台首次上网日期,不代表论文的发表时间)