子句对齐研究及其在专利统计机器翻译中的应用

摘要：

　　针对专利文献句子偏长的特点，本文尝试将统计机器翻译中的训练语料进行子句切割获取双语的子句序列，再采用统计和规则相结合的策略来生成子句对齐，建立基于简单子句的双语语料来重新训练统计机器翻译系统。该方法在一定程度上改善了原有双语训练语料中的短语对齐和词对齐，可以更为深入地利用平行语料中蕴含的翻译信息，从而提高翻译质量。本文将该方法应用于专利统计机器翻译中，在NTCIR-9的测试集上进行了实验比较，获得了较为满意的翻译效果。

关键词：子句对齐词对齐专利机器翻译

作者: 何彦青张娟

作者单位: 中国科学技术信息研究所,北京市海淀区复兴路15号,北京 100038 北京联合大学,北京 100101

会议类型: 国内会议

会议名称: 第二十六届全国计算机信息管理学术交流会

会议地点: 云南腾冲

会议语种:中文

页码: 291-297

在线出版日期: 2012-11-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

子句对齐研究及其在专利统计机器翻译中的应用