会议专题

基于汉英双语语料库述宾短语的自动抽取

本文针对政府文件汉英语料库的特点,提出了一种自动抽取双语述宾短语等价对译单位的算法,其中充分利用了位置、词性、英汉词典和语法知识等信息.本算法回避了互信息等基于统计的方法固有的数据稀疏问题,并能抽取低频和较长距离依赖的短语对译单位,达到了很高的准确率和召回率.所提取的短语对译单位可以直接融合到现有的短语信息库并为汉英机器翻译提供短语一级翻译实例.

双语语料库 短语自动抽取 述宾短语 机器翻译

彭国珍 邹纲

北京大学中文系(北京) 中科院计算所(北京)

国内会议

第二届全国学生计算语言学研讨会

北京

中文

381-386

2004-08-01(万方平台首次上网日期,不代表论文的发表时间)