基于层次短语的统计翻译系统中规则冗余的高效约束方法

(0)

摘要：

基于层次短语的统计机器翻译模型是近年来比较流行且翻译质量较好的一种模型。层次短语翻译系统有效地将同步上下文无关文法的重排序能力构建于成熟的普通短语翻译系统之上,得到了在重排序和捕捉上下文信息方面都具有优势的模型。然而,层次短语翻译系统在计算复杂度方面远高出普通短语翻译系统,使用的规则存在大量的冗余。本文分析了基于层次短语的翻译系统的规则冗余问题,提出了一种基于重排序分割点的约束方法,使得学习重排序规则的训练过程集中在训练语料中重排序真实发生的片段。实验证明这种方法大幅度减少了规则数量和解码时间,且使训练时间减少了一个量级,而翻译质量仅有微小损失,并保持了基于层次短语的翻译系统和普通短语翻译系统相比翻译质量的优势。

关键词：文字处理层次短语机器翻译数理语言学

作者: 方李成宗成庆

作者单位: 中科院自动化研究所模式识别国家重点实验室北京 100190

会议类型: 国内会议

会议名称: 第四届全国学生计算语言学研讨会(SWCL-2008)

会议地点: 太原

会议语种:中文

页码: 303-309

在线出版日期: 2008-07-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于层次短语的统计翻译系统中规则冗余的高效约束方法