会议专题

一种基于短语搭配和高频骨干词的层次短语约束抽取方法

层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一.然而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中存在的短语搭配和高频骨干词,因此抽取出了大量冗余的泛化规则。对此,本文提出了相应抽取约束策略:1)采用对数似然比来确定短语搭配,并且在抽取过程中,把短语搭配当作一个整体语言单位;2)采用频率来识别句子中的高频骨干词,在抽取过程中不对完全由高频骨干词组成的子短语进行泛化。实验证明,我们提出的方法在保证翻译质量基本不变的情况下,可以大量减少冗余泛化规则的产生。

机器翻译 层次短语 语言模型 对数似然比

苏劲松 吕雅娟 刘群

中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190 中国科学院研究生院 北京 100190 中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190

国内会议

第五届全国机器翻译研讨会

南京

中文

155-162

2009-10-16(万方平台首次上网日期,不代表论文的发表时间)