prefix-hash-tree的插入、查找和重构算法

在现有的众多文本分类方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法.针对汉语言的特殊性,本文提出利用prefix-hash-tree作为中文词表数据结构,并设计了相应的查找、插入和重构算法,从而可以方便地将中文文本转化为事务数据,该数据结构同时也可以作为一般中文信息处理的电子词表数据结构。
文本分类 数据库 中文词表 查找算法 插入算法 重构算法
钱铁云 冯小年 王元珍
华中科技大学计算机学院数据库与多媒体技术研究所,武汉,430074 中国电力财务有限公司华中分公司,武汉,430077
国内会议
厦门
中文
90-92
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)