会议专题

一种有效的基于Web的双语翻译对获取方法

命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。 本文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。本文同时提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。

文字处理 双语翻译 语言判别 数理语言学

郭稷 吕雅娟 刘群

北京大学软件与微电子学院,北京 102600 中国科学院计算技术研究所智能信息处理重点实验室,北京 100190

国内会议

第四届全国学生计算语言学研讨会(SWCL-2008)

太原

中文

310-316

2008-07-23(万方平台首次上网日期,不代表论文的发表时间)