会议专题

基于浓密树和改进McCHyp算法的Impala查询优化

针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的McCHyp(MinCutConservative Hypergraph)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明,改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%.

数据库 信息查询 优化运行 浓密树 McCHyp算法

马骄阳 陈岭 赵宇亮 杨谊 吴勇 王敬昌

浙江大学计算机科学与技术学院 杭州310027 浙江鸿程计算机系统有限公司 杭州310009

国内会议

第二届CCF大数据学术会议

北京

中文

1-8

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)