会议专题

一种基于统计信息的无字典中文文本特征提取算法

本文提出了一种利用字频、词频和串频等统计信息的无字典中文文本特征提取算法.一方面,这种方法从一定程度上可以说比较好地解决了当前基于字典和匹配的分词方法本身存在的一些问题,比如:无法识别未登录字典的新词、固有的对词语的歧义切分问题等;另一方面,因为这种方法不需要扫描容量庞大的词汇字典,在加上算法中使用了Hash索引的方法,所以从性能上说是优于同类的基于字典的方法.

文本挖掘 文本特征 数据源 特征提取

齐攀 陈晓云

兰州大学信息科学与工程学院(兰州)

国内会议

第二十届全国数据库学术会议

长沙

中文

735-737

2003-10-10(万方平台首次上网日期,不代表论文的发表时间)