一种基于短语搭配和高频骨干词的层次短语约束抽取方法

摘要：

层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一.然而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中存在的短语搭配和高频骨干词,因此抽取出了大量冗余的泛化规则。对此,本文提出了相应抽取约束策略:1)采用对数似然比来确定短语搭配,并且在抽取过程中,把短语搭配当作一个整体语言单位;2)采用频率来识别句子中的高频骨干词,在抽取过程中不对完全由高频骨干词组成的子短语进行泛化。实验证明,我们提出的方法在保证翻译质量基本不变的情况下,可以大量减少冗余泛化规则的产生。

关键词：机器翻译层次短语语言模型对数似然比

作者: 苏劲松吕雅娟刘群

作者单位: 中国科学院计算技术研究所智能信息处理重点实验室北京 100190 中国科学院研究生院北京 100190 中国科学院计算技术研究所智能信息处理重点实验室北京 100190

会议类型: 国内会议

会议名称: 第五届全国机器翻译研讨会

会议地点: 南京

会议语种:中文

页码: 155-162

在线出版日期: 2009-10-16（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于短语搭配和高频骨干词的层次短语约束抽取方法