会议专题

子句对齐研究及其在专利统计机器翻译中的应用

  针对专利文献句子偏长的特点,本文尝试将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统。该方法在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,从而提高翻译质量。本文将该方法应用于专利统计机器翻译中,在NTCIR-9的测试集上进行了实验比较,获得了较为满意的翻译效果。

子句对齐 词对齐 专利机器翻译

何彦青 张娟

中国科学技术信息研究所,北京市海淀区复兴路15号,北京 100038 北京联合大学,北京 100101

国内会议

第二十六届全国计算机信息管理学术交流会

云南腾冲

中文

291-297

2012-11-26(万方平台首次上网日期,不代表论文的发表时间)