会议专题

基于二维词汇化领域知识的日汉科技术语翻译方法研究

科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技术语翻译质量.这对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理任务都具有重要的实用价值.本项研究以日汉科技术语翻译为研究目标,通过自动获取日语术语的二维领域知识,包括语义范畴标签和应用场景标签,可以对日语术语进行领域归类.该方法应用到统计机器翻译中,可以自动标注日语术语(或句子)的二维领域知识,生成测试集和开发集的领域标签集合,进而筛选训练数据.实验表明,仅利用部分训练数据就可以获取与原始训练数据可比较的翻译结果,验证了本方法的有效性和可行性.本研究有助于解决面向科技术语的统计机器翻译的领域自适应问题.

日汉科技术语 机器翻译 二维词汇化领域知识 领域自适应

丁亮 李颖 何彦青 刘建辉

中国科学技术信息研究所,北京100038 河北地质大学,石家庄,050031

国内会议

第十二届全国机器翻译研讨会

乌鲁木齐

中文

19-28

2016-08-25(万方平台首次上网日期,不代表论文的发表时间)