会议专题

基于小规模俄汉双语词典的俄语形态切分

  俄语是一种形态丰富的语言,其形态切分相关语料较为缺乏或带有噪声,这些都为俄语的形态切分研究带来困难。我们将此问题建模为经典的序列标注模型,首先自动切分小规模俄汉双语词典提取出形素字典作为训练数据,然后针对这种语言特点训练了一个基于最大熵的标注模型。在联合国六国平行语料中抽取的7万俄汉对齐句对上进行的机器翻译实验证明,我们的方法使得BLEU值相对没有形态切分的基线系统提高了1.92%。

俄汉双语词典 俄语形态切分 词语切分 词法分析 最大熵

黄云 姜文斌 王志洋 祝捷 吕雅娟 刘群

中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京,100190

国内会议

第七届全国机器翻译研讨会

厦门

中文

178-186

2011-09-23(万方平台首次上网日期,不代表论文的发表时间)