会议专题

列存储数据仓库查询执行中重用缓冲区调度算法

  查询的中间结果重用是提高查询效率的重要手段。现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果。单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象。为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的调度算法。首先,基于操作结点在给定物理执行计划树中的相对位置及其操作所产生的中间结果的大小对操作结点提出重用度估计模型。其次,设计了基于模型估计结果的缓冲区调度算法。在每一个查询计划的执行过程中,根据其模型估计结果执行缓冲区调度算法,使得其产生的中间结果中更重要的部分能够更久地驻留在内存中,以提升查询性能。在数据仓库基准数据集SSB上的实验结果验证了方法的有效性。

列存储系统 查询效率 数据重用 缓冲区空间 数据仓库 调度算法

张琦 王梅 乐嘉锦 刘国华

东华大学计算机科学与技术学院 上海201620 东华大学计算机科学与技术学院 上海201620;计算机软件新技术国家重点实验室(南京大学)南京210093

国内会议

第28届中国数据库学术会议

上海

中文

1942-1950

2011-10-21(万方平台首次上网日期,不代表论文的发表时间)