蒙古语词法分析的生成式统计建模
我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到词干转移概率、词缀到词级转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.8%,词级联合切分与标注正确率93.5%的好成绩。
蒙古语 词法分析 词语切分 词性标注 词干提取 生成式 统计建模
姜文斌 吴金星 长青 赵理莉 刘群 那顺乌日图
中国科学院计算技术研究所 北京,100190 内蒙古大学 蒙古学学院 呼和浩特,010021 中国科学院计算技术研究所 北京,100190 河南师范大学 计算机与信息技术学院 河南 新乡,453007 中国科学院计算技术研究所 北京,100190 内蒙古大学 蒙古学学院 呼和浩特,010021
国内会议
第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会
乌鲁木齐
中文
47-52
2010-06-27(万方平台首次上网日期,不代表论文的发表时间)