融合被动和可能态模型的日汉统计机器翻译
日语中谓词语态有不同的词尾变形,其中被动态和可能态具有相同的词尾变化,在统计机器翻译中难以对其正确区分及翻译.因此,本文提出一种利用最大熵模型有效地对日语可能态和被动态进行分类,然后把日语的可能态和被动态特征有效地融合到对数线性模型中改进翻译模型的方法,以提高可能态和被动态翻译规则选择的准确性.实验结果表明,该方法可以有效提升日语可能态和被动态句子的翻译质量,在大规模日汉语料上,最高翻译BLEU值能够由41.50提高到42.01,并且在人工评测中,翻译结果的整体可理解度得到了2.71%的提升.
日语 汉语 被动态 可能态 统计机器翻译 最大熵模型
王楠 徐金安 明芳 陈钰枫 张玉洁
北京交通大学计算与信息技术学院,北京100044
国内会议
第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)
烟台
中文
1-10
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)