统计机器翻译中短语切分的新方法
基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的.本文提出了一种短语切分方法,将句子的短语切分概率化:首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语;其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率.在2005年863汉英机器翻译评测测试集上的实验结果(bleu4)是:0.1764(篇章),0.2231(对话).实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点.
统计机器翻译 翻译模型 短语切分 Viterbi算法
何中军 刘群 林守勋
中国科学院计算技术研究所,北京,100080
国内会议
沈阳
中文
393-397
2006-08-15(万方平台首次上网日期,不代表论文的发表时间)