使用源语言复述知识改善统计机器翻译性能
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架.此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中.在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性.在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1M句对),系统性能也取得一定提升(BLEU+0.32%).
源语言句子 统计机器翻译 复述技术 解码器
苏晨 张玉洁 郭振 徐金安
北京交通大学计算机学院,北京100044
国内会议
深圳
中文
342-348
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)