会议专题

基于双语语料的单个源语词汇和目标语多词单元的对齐

多词单元包括固定搭配、多词习语和多词术语等.本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法,算法一方面通过计算对应于同一个源语词汇,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题.另外,对短语翻译词典的分级,有效地减少了高级别词典中非正确翻译项的数目,使得翻译词典具有更好的实用性.

双语对齐 多词单元 翻译词典 平均关联值 关联值归一化差值 自然语言处理

陈博兴 杜利民

中国科学院声学研究所语音交互技术研究中心(北京市)

国内会议

第一届学生计算语言学研讨会

北京

中文

318-327

2002-08-01(万方平台首次上网日期,不代表论文的发表时间)