会议专题

面向统计机器翻译的训练语料质量评价方法研究及应用

Abstract 本文设计了多个语料质量评价特征,并利用线性模型来组合这些特征,同时实现了特征权重的自动学习。实验结果表明,在人工标注语料质量的数据上,本文提出的方法可以非常有效地区分高质量与低质量翻译句对,准确率达到83.56%。进一步,我们把所提出的方法应用于面向统计机器翻译的高质量训练数据选取,在不降低系统翻译质量的情况下,大大降低了训练和解码的代价。在CWMT 2008和NIST评测部分数据(约100万句对)两个汉英数据集上的实验证明,当选取训练数据子集规模达到原始数据的30%时,能够获得同原始数据相当甚至更高的翻译性能。

路琦 张傲 刘金花 肖桐 朱靖波

东北大学自然语言处理实验室 辽宁 沈阳 110819

国内会议

第六届全国青年计算语言学会议

上海

中文

264-275

2012-11-17(万方平台首次上网日期,不代表论文的发表时间)