会议专题

统计机器翻译中短语切分的新方法

基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的.本文提出了一种短语切分方法,将句子的短语切分概率化:首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语;其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率.在2005年863汉英机器翻译评测测试集上的实验结果(bleu4)是:0.1764(篇章),0.2231(对话).实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点.

统计机器翻译 翻译模型 短语切分 Viterbi算法

何中军 刘群 林守勋

中国科学院计算技术研究所,北京,100080

国内会议

第三届学术计算语言学研讨会

沈阳

中文

393-397

2006-08-15(万方平台首次上网日期,不代表论文的发表时间)