基于汉英双语语料库述宾短语的自动抽取

摘要：

本文针对政府文件汉英语料库的特点,提出了一种自动抽取双语述宾短语等价对译单位的算法,其中充分利用了位置、词性、英汉词典和语法知识等信息.本算法回避了互信息等基于统计的方法固有的数据稀疏问题,并能抽取低频和较长距离依赖的短语对译单位,达到了很高的准确率和召回率.所提取的短语对译单位可以直接融合到现有的短语信息库并为汉英机器翻译提供短语一级翻译实例.

关键词：双语语料库短语自动抽取述宾短语机器翻译

作者: 彭国珍邹纲

作者单位: 北京大学中文系(北京) 中科院计算所(北京)

会议类型: 国内会议

会议名称: 第二届全国学生计算语言学研讨会

会议地点: 北京

会议语种:中文

页码: 381-386

在线出版日期: 2004-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于汉英双语语料库述宾短语的自动抽取