会议专题

倒排文件压缩算法

搜索引擎一般采用倒排文件作为索引机制,在倒排文件中保存词目对应的文档编号的列表.而如果采用一般的数据类型如长整型来表示文档编号存在如下缺点:存在最大值限制,占用大量磁盘空间等.因此对倒排文件的压缩势在必行,压缩的倒排文件不仅大大降低了存储空间的占用,并通过减少磁盘访问次数来减少检索系统的响应时间,这也是成功的搜索引擎的必备条件.本文对倒排文件的压缩算法进行深入的探讨,给出有效的解决方案.

搜索引擎 信息检索 倒排文件 索引机制 压缩算法

张磊

中科院计算所

国内会议

中国科学院计算技术研究所第六届计算机科学与技术研究生学术讨论会

大连

中文

338-343

2000-07-01(万方平台首次上网日期,不代表论文的发表时间)