一种基于统计信息的无字典中文文本特征提取算法

摘要：

本文提出了一种利用字频、词频和串频等统计信息的无字典中文文本特征提取算法.一方面,这种方法从一定程度上可以说比较好地解决了当前基于字典和匹配的分词方法本身存在的一些问题,比如:无法识别未登录字典的新词、固有的对词语的歧义切分问题等;另一方面,因为这种方法不需要扫描容量庞大的词汇字典,在加上算法中使用了Hash索引的方法,所以从性能上说是优于同类的基于字典的方法.

关键词：文本挖掘文本特征数据源特征提取

作者: 齐攀陈晓云

作者单位: 兰州大学信息科学与工程学院(兰州)

会议类型: 国内会议

会议名称: 第二十届全国数据库学术会议

会议地点: 长沙

会议语种:中文

页码: 735-737

在线出版日期: 2003-10-10（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于统计信息的无字典中文文本特征提取算法