面向统计机器翻译的训练语料质量评价方法研究及应用

摘要：

Abstract 本文设计了多个语料质量评价特征，并利用线性模型来组合这些特征，同时实现了特征权重的自动学习。实验结果表明，在人工标注语料质量的数据上，本文提出的方法可以非常有效地区分高质量与低质量翻译句对，准确率达到83．56％。进一步，我们把所提出的方法应用于面向统计机器翻译的高质量训练数据选取，在不降低系统翻译质量的情况下，大大降低了训练和解码的代价。在CWMT 2008和NIST评测部分数据(约100万句对)两个汉英数据集上的实验证明，当选取训练数据子集规模达到原始数据的30％时，能够获得同原始数据相当甚至更高的翻译性能。

作者: 路琦张傲刘金花肖桐朱靖波

作者单位: 东北大学自然语言处理实验室辽宁沈阳 110819

会议类型: 国内会议

会议名称: 第六届全国青年计算语言学会议

会议地点: 上海

会议语种:中文

页码: 264-275

在线出版日期: 2012-11-17（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向统计机器翻译的训练语料质量评价方法研究及应用