会议专题

PDPI:一种面向多核的可扩展并行索引算法

数据量呈爆炸性增长的互联网环境下,信息检索是快速准确获取信息的有效手段。索引是信息检索系统的重要组成部分,而且是最耗时的部分。针对索引过程,本文提出了面向多核的流水与数据并行混合算法(Pipeline and Data Parallel Indexingalgorithm, PDPI)。该算法将流水线的思想和数据并行的思想相结合,在获得很好的性能的同时,提高了索引算法的扩展性。实验结果显示,流水与数据并行混合算法能够获得很好的性能。在双CPU,多个CPU双核的机器上,该算法在使用1,2,3和4个核的情况下,比串行算法性能提高为19.3%,38.3%,49.7%和56.1%。

互联网 信息检索 过程索引 PDPI算法 可扩展性

薛巍 李维佳 穆飞 舒继武

清华大学计算机系,北京,100084

国内会议

2007年全国网络与信息安全技术研讨会

青岛

中文

537-542

2007-07-18(万方平台首次上网日期,不代表论文的发表时间)