基于统计机器翻译的知识库多语言自动扩展

摘要：

本文的研究任务为知识库的多语言自动扩展,并使用统计机器翻译的技术将知识库中实体标签翻译到另一种语言.为了解决知识库中特定词汇较多及特定领域双语平行语料缺少的问题,本文首先利用知识库中实体的源语言标签挖掘互联网中的双语例句.再次为了解决人名实体中未登录词的问题以提高知识库中人名实体翻译的正确性,本文添加了音译特征来翻译人名实体中的未登录词.此外,为了充分利用知识库中实体的属性信息,本文利用原知识库中人名的性别属性,帮助提高人名实体中未登录词的问题.本文使用电影领域知识库,并实现知识库实体标签从英文到中文的多语言自动扩展.实验表明相比基线系统本方法在BLUE-2 及BLUE 上分别提高了1.3和0.9.

关键词：知识库多语言自动扩展统计机器翻译音译特征

作者: 李晓倩曹海龙赵铁军

作者单位: 哈尔滨工业大学机器智能与翻译实验室,黑龙江省哈尔滨市150001

会议类型: 国内会议

会议名称: 第十二届全国机器翻译研讨会

会议地点: 乌鲁木齐

会议语种:中文

页码: 85-91

在线出版日期: 2016-08-25（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于统计机器翻译的知识库多语言自动扩展