一种基于统计信息的无字典中文文本特征提取算法

摘要：

本文对当前基于字典的中文自动分词方法的弊病进行了分析,提出了一种使用字频、串频和词频等统计信息进行中文文本无字典特征提取的算法.通过对算法的描述和分析,我们可以发现该算法从性能和效果来看,较同类基于字典的方法而言,是有一定的优越性的.

关键词：中文分词文本特征频繁词条 Hash 字符索引统计信息

作者: 齐攀陈晓云

作者单位: 兰州大学信息工程学院(兰州)

会议类型: 国内会议

会议地点: 北京

会议语种:中文

页码: 130-136

在线出版日期: 2003-03-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题