会议专题

一种基于规则的中文分词算法

本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然后依据中文文法规则和词条筛选规则对初步结果进行再次划分,得到优化的分词结果,最后通过未登录词识别规则对分词结果进行检查,将满足未登录词条件的新词加入词库.该分词算法能够在很大程度上消除歧义划分,提高未登录词的识别概率。实验结果表明,该分词算法的准确率能达到97%以上,在效率上也具有很大优势。

分词算法 中文文法规则 词性标注 未登录词识别 词条筛选 歧义划分

傅士光 林友芳 万怀宇 徐娟娟

北京交通大学计算机与信息技术学院,北京,100044

国内会议

第七届中文信息处理国际会议

武汉

中文

41-45

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)