会议专题

一种基于动态平衡树的在线索引快速构建方法

本文提出了一种基于动态平衡树的在线索引更新策略,利用动态平衡树控制索引合并过程,使索引合并总是在大小相近的子索引之间进行,以减少索引合并代价,同时可以调节索引和检索之间的性能平衡。本文方法提供了一个基于合并的在线索引更新框架,与已有方法相比,具有更好的通用性,更高的性能和更好的规模可扩展性。在由4000万张网页构成的270G Web数据集上运行的实验表明,本方法在实际系统中是高效的,将索引更新的性能提升最高可达92.28%,而检索性能仅下降4.47%,大幅度降低了在线索引构建的代价。

信息检索 在线索引 索引性能 检索性能

郭瑞杰 程学旗 许洪波 王斌 丁国栋

中国科学院计算技术研究所,北京,100080;中国科学院研究生院,北京,100080 中国科学院计算技术研究所,北京,100080

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

370-376

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)