一种有效的基于Web的双语翻译对获取方法
命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。 本文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。本文同时提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。
文字处理 双语翻译 语言判别 数理语言学
郭稷 吕雅娟 刘群
北京大学软件与微电子学院,北京 102600 中国科学院计算技术研究所智能信息处理重点实验室,北京 100190
国内会议
太原
中文
310-316
2008-07-23(万方平台首次上网日期,不代表论文的发表时间)