会议专题

基于阿拉伯数字中介的汉蒙数词对齐策略

在汉蒙词对齐任务的背景下,我们针对数词这一特殊的词类,提出了以阿拉伯数字作为转换中介的对齐方法。其基本思想是,将汉蒙文本中的数词分别转换为阿拉伯数字后再决定它们之间是否存在对应关系,即是否可以成为一个对齐连接。转换过程建立在汉蒙基本数词与阿拉伯数字信息对应表——numtable的基础上。numtable中设置了“标志位”信息,用以标明基本数词是否为“10”的倍数。数词到阿拉伯数字的转换模块依据numtable中的“标志位”信息,经过推理,将汉蒙数词分别转换为相应的阿拉伯数字。我们在实现转换时,不仅考虑了汉语数词和蒙古语数词各自的特征,而且以“词对齐”作为目标,对每一种语言内部不同类型的数词分别采取了不同的转换策略。

汉蒙词对齐 数词对齐 阿拉伯转换 标志位信息 数字信息对应表

雪艳 应玉龙

内蒙古大学蒙古学学院,010021 中国科学院合肥智能机械研究所,230031

国内会议

第二届全国少数民族青年自然语言处理学术研讨会

合肥

中文

248-256

2008-10-07(万方平台首次上网日期,不代表论文的发表时间)