PDPI:一种面向多核的可扩展并行索引算法
数据量呈爆炸性增长的互联网环境下,信息检索是快速准确获取信息的有效手段。索引是信息检索系统的重要组成部分,而且是最耗时的部分。针对索引过程,本文提出了面向多核的流水与数据并行混合算法(Pipeline and Data Parallel Indexingalgorithm, PDPI)。该算法将流水线的思想和数据并行的思想相结合,在获得很好的性能的同时,提高了索引算法的扩展性。实验结果显示,流水与数据并行混合算法能够获得很好的性能。在双CPU,多个CPU双核的机器上,该算法在使用1,2,3和4个核的情况下,比串行算法性能提高为19.3%,38.3%,49.7%和56.1%。
互联网 信息检索 过程索引 PDPI算法 可扩展性
薛巍 李维佳 穆飞 舒继武
清华大学计算机系,北京,100084
国内会议
青岛
中文
537-542
2007-07-18(万方平台首次上网日期,不代表论文的发表时间)