会议专题

一种中文分词后处理反馈算法

分词错误会对未登录词识别产生严重干扰.为解决该问题,本文提出一种对分词结果中的未登录词进行分类,获取分词结果中未登录词的可信度,并将结果反馈至分词程序的算法。分词程序可以据此判断是否应当重新进行分词.实验结果表明算法作为分词程序的辅助,有效的避免了分词错误对未登录词识别的影响,提高了分词算法的整体性能,同时可以从文本中抽取出大量的高可信度的未登录词进行后续处理或研究。

中文自动分词 未登录词识别 可信度判断 分词程序 反馈算法

高嵩 周强

清华大学计算机系,智能技术与系统国家重点实验室,北京,100084

国内会议

第七届中文信息处理国际会议

武汉

中文

24-30

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)