会议专题

频率向量的一种压缩存储方法

本文采用类似于位图的结构为关键词词汇表中的每个词建立频率向量来记录该词在每篇文档中出现的频率。显然,频率向量支持基于关键词信息量的查询。为了减小存储空间,我们对频率向量进行压缩存储。在构造其存储结构时为了减小存储频率值所需要的空间,先将连续的频率空间离散化,并表明这不会减小任何查询的结果集;在存储频率值出现的位置时,对位置的二进制码的长度进行了压缩。对压缩方法的理论分析表明在实际应用范围内,存储关键词索引时采用压缩频率向量的方法比用倒排文件的方法节省空间。

频率向量 压缩存储 信息检索

骆吉洲 李建中 高宏

哈尔滨工业大学计算机科学与技术学院,黑龙江150001

国内会议

第十九届全国数据库学术会议

郑州

中文

249-252

2002-08-26(万方平台首次上网日期,不代表论文的发表时间)