蒙古语连续多词单元的识别和标注

摘要：

本文提出一种蒙古语连续多词单元(Consecutive Multi-WordUnits)的自动识别方法,用以辅助语言学工作者在蒙古语文本中对连续多词单元进行识别和标注。首先结合汉蒙词语对齐任务,讨论对蒙古语多词单元进行识别和标注的必要性,界定本篇论文所要处理的蒙古语多词单元的范围,并对前人的相关研究进行简单评述；其次介绍基于同现频率的蒙古语连续多词单元的抽取算法以及根据蒙古语连续多词单元的语言学特征制作的两种过滤器;最后是实验结果和相关讨论。

关键词：蒙古语连续多词单元同现频率语法特征过滤

作者: 雪艳那顺乌日图

作者单位: 中央民族大学蒙古语言文学系 100081 内蒙古大学蒙古学学院 010021

会议类型: 国内会议

会议名称: 第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会

会议地点: 乌鲁木齐

会议语种:中文

页码: 34-38

在线出版日期: 2010-06-27（万方平台首次上网日期，不代表论文的发表时间）

会议专题

蒙古语连续多词单元的识别和标注