会议专题

一种基于统计信息的无字典中文文本特征提取算法

本文对当前基于字典的中文自动分词方法的弊病进行了分析,提出了一种使用字频、串频和词频等统计信息进行中文文本无字典特征提取的算法.通过对算法的描述和分析,我们可以发现该算法从性能和效果来看,较同类基于字典的方法而言,是有一定的优越性的.

中文分词 文本特征 频繁词条 Hash 字符索引 统计信息

齐攀 陈晓云

兰州大学信息工程学院(兰州)

国内会议

全国搜索引擎和网上信息挖掘学术讨论会

北京

中文

130-136

2003-03-01(万方平台首次上网日期,不代表论文的发表时间)