基于机器学习的分词不一致自动识别研究

摘要：

分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22％和83.13％.

关键词：分词自动识别机器学习

作者: 卢俊之

作者单位: 南京师范大学文学院,江苏,南京,210097

会议类型: 国内会议

会议名称: 第三届学术计算语言学研讨会

会议地点: 沈阳

会议语种:中文

页码: 1-6

在线出版日期: 2006-08-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于机器学习的分词不一致自动识别研究