基于知识融合的CRFs藏文分词系统
藏文分词问题是藏文自然语言处理的基本问题之一,本文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%.
藏文分词系统 条件随机场 知识融合
洛桑嘎登 杨媛媛 赵小兵
中央民族大学信息工程学院,北京100081 中央民族大学少数民族语言文学系,北京100081 中央民族大学国家语言资源监测中心少数民族语言分中心,北京100081
国内会议
中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)
广州
中文
1-10
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)