一种基于规则的中文分词算法

摘要：

本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然后依据中文文法规则和词条筛选规则对初步结果进行再次划分,得到优化的分词结果,最后通过未登录词识别规则对分词结果进行检查,将满足未登录词条件的新词加入词库.该分词算法能够在很大程度上消除歧义划分,提高未登录词的识别概率。实验结果表明,该分词算法的准确率能达到97％以上,在效率上也具有很大优势。

关键词：分词算法中文文法规则词性标注未登录词识别词条筛选歧义划分

作者: 傅士光林友芳万怀宇徐娟娟

作者单位: 北京交通大学计算机与信息技术学院,北京,100044

会议类型: 国内会议

会议名称: 第七届中文信息处理国际会议

会议地点: 武汉

会议语种:中文

页码: 41-45

在线出版日期: 2007-10-13（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于规则的中文分词算法