会议专题

基于统计机器翻译的知识库多语言自动扩展

本文的研究任务为知识库的多语言自动扩展,并使用统计机器翻译的技术将知识库中实体标签翻译到另一种语言.为了解决知识库中特定词汇较多及特定领域双语平行语料缺少的问题,本文首先利用知识库中实体的源语言标签挖掘互联网中的双语例句.再次为了解决人名实体中未登录词的问题以提高知识库中人名实体翻译的正确性,本文添加了音译特征来翻译人名实体中的未登录词.此外,为了充分利用知识库中实体的属性信息,本文利用原知识库中人名的性别属性,帮助提高人名实体中未登录词的问题.本文使用电影领域知识库,并实现知识库实体标签从英文到中文的多语言自动扩展.实验表明相比基线系统本方法在BLUE-2 及BLUE 上分别提高了1.3和0.9.

知识库 多语言自动扩展 统计机器翻译 音译特征

李晓倩 曹海龙 赵铁军

哈尔滨工业大学机器智能与翻译实验室,黑龙江省哈尔滨市150001

国内会议

第十二届全国机器翻译研讨会

乌鲁木齐

中文

85-91

2016-08-25(万方平台首次上网日期,不代表论文的发表时间)