一种基于短语搭配和高频骨干词的层次短语约束抽取方法
层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一.然而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中存在的短语搭配和高频骨干词,因此抽取出了大量冗余的泛化规则。对此,本文提出了相应抽取约束策略:1)采用对数似然比来确定短语搭配,并且在抽取过程中,把短语搭配当作一个整体语言单位;2)采用频率来识别句子中的高频骨干词,在抽取过程中不对完全由高频骨干词组成的子短语进行泛化。实验证明,我们提出的方法在保证翻译质量基本不变的情况下,可以大量减少冗余泛化规则的产生。
机器翻译 层次短语 语言模型 对数似然比
苏劲松 吕雅娟 刘群
中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190 中国科学院研究生院 北京 100190 中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190
国内会议
南京
中文
155-162
2009-10-16(万方平台首次上网日期,不代表论文的发表时间)