基于层次短语的统计翻译系统中规则冗余的高效约束方法

基于层次短语的统计机器翻译模型是近年来比较流行且翻译质量较好的一种模型。层次短语翻译系统有效地将同步上下文无关文法的重排序能力构建于成熟的普通短语翻译系统之上,得到了在重排序和捕捉上下文信息方面都具有优势的模型。然而,层次短语翻译系统在计算复杂度方面远高出普通短语翻译系统,使用的规则存在大量的冗余。 本文分析了基于层次短语的翻译系统的规则冗余问题,提出了一种基于重排序分割点的约束方法,使得学习重排序规则的训练过程集中在训练语料中重排序真实发生的片段。实验证明这种方法大幅度减少了规则数量和解码时间,且使训练时间减少了一个量级,而翻译质量仅有微小损失,并保持了基于层次短语的翻译系统和普通短语翻译系统相比翻译质量的优势。
文字处理 层次短语 机器翻译 数理语言学
方李成 宗成庆
中科院自动化研究所模式识别国家重点实验室 北京 100190
国内会议
太原
中文
303-309
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)