一种有效的基于Web的双语翻译对获取方法

摘要：

命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。本文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点，使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1％,TOP3的正确率达到94.5％。本文同时提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3％。

关键词：文字处理双语翻译语言判别数理语言学

作者: 郭稷吕雅娟刘群

作者单位: 北京大学软件与微电子学院,北京 102600 中国科学院计算技术研究所智能信息处理重点实验室,北京 100190

会议类型: 国内会议

会议名称: 第四届全国学生计算语言学研讨会(SWCL-2008)

会议地点: 太原

会议语种:中文

页码: 310-316

在线出版日期: 2008-07-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种有效的基于Web的双语翻译对获取方法