会议专题

基于机器学习的分词不一致自动识别研究

分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键.本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串.我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22%和83.13%.

分词 自动识别 机器学习

卢俊之

南京师范大学文学院,江苏,南京,210097

国内会议

第三届学术计算语言学研讨会

沈阳

中文

1-6

2006-08-15(万方平台首次上网日期,不代表论文的发表时间)