会议专题

基于词语对齐融合提高统计机器翻译质量

当前,多数统计机器翻译系统通过从并行双语语料中抽取翻译知识来建立模型,而词对齐是第一个关键技术,后面的翻译知识获取均要依赖于此。但是词对齐性能和机器翻译性能之间关系尚不明朗,而差异较大的词对齐模型也许会为机器翻译提供互补的信息。 本文分析了两个不同的词对齐模型,发现两者在对语料进行自动词对齐时,对齐结果上存在较大差异。鉴于此,本文采用两种不同策略对这两种不同的词对齐工具取得的结果进行了融合,一种是直接把语料合并在一起,然后一起训练得到一个整体模型,称之为数据融合;另一种是分别训练,只是将最后获得的模型进行融合,称为模型融合。在2007年国内的机器翻译评测数据集上的实验表明,数据融合可以显著提高机器翻译的性能。深入分析发现融合不同词对齐使得不同中文短语的数量增加从而使得未登录词(UNK)减少,而模型融合虽同样能减少UNK数目,但因概率空间不归一,导致性能难以取得改善。

语言处理 机器翻译 词语对齐 数理语言学

张春越 蒋宏飞 赵铁军

哈尔滨工业大学机器智能与翻译研究室 哈尔滨 150001

国内会议

第四届全国机器翻译研讨会

北京

中文

237-245

2008-11-27(万方平台首次上网日期,不代表论文的发表时间)