蒙古语有向图形态分析器的判别式词干词缀切分
蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。
蒙古语 词法分析 形态分析器 词干提取 有向图模型 判别式分类
姜文斌 吴金星 乌日力嘎 那顺乌日图 刘群
中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京 100190 中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京 100190 内蒙古大学蒙古学学院,内蒙古呼和浩特 010021 内蒙古大学蒙古学学院,内蒙古呼和浩特 010021
国内会议
呼和浩特
中文
30-34
2011-07-29(万方平台首次上网日期,不代表论文的发表时间)