蒙古语连续多词单元的识别和标注
本文提出一种蒙古语连续多词单元(Consecutive Multi-WordUnits)的自动识别方法,用以辅助语言学工作者在蒙古语文本中对连续多词单元进行识别和标注。首先结合汉蒙词语对齐任务,讨论对蒙古语多词单元进行识别和标注的必要性,界定本篇论文所要处理的蒙古语多词单元的范围,并对前人的相关研究进行简单评述;其次介绍基于同现频率的蒙古语连续多词单元的抽取算法以及根据蒙古语连续多词单元的语言学特征制作的两种过滤器;最后是实验结果和相关讨论。
蒙古语连续多词单元 同现频率 语法特征过滤
雪艳 那顺乌日图
中央民族大学蒙古语言文学系 100081 内蒙古大学蒙古学学院 010021
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
34-38
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)