会议专题

列存储数据仓库中Hash连接改进算法研究

  Hash连接是一种高效的连接算法。然而由于难以提前选择合适的桶数和散列函数,降低了Hash连接效率。该问题在列存储海量数据查询连接中,表现尤为明显。提出了一种基于桶内索引的Hash连接改进算法。该算法当某些桶内出现数据大量聚集时,以消除重复值和构建桶内索引的方式,大大减少查找匹配时间。进而,根据列存储特点,提出列值有序数据下的散列与匹配算法,进一步提升桶内查找速度。所做的改进在SSB数据集的实验结果验证了其有效性。

列存储数据仓库 散列连接改进算法 模式匹配 信息管理

Sun Li 孙莉 Hao Dateng 郝大腾 Wang Mei 王梅

School of Computer Science&Technology, Donghua University, Shanghai 201620 东华大学计算机科学与技术学院 上海 201620

国内会议

第29届中国数据库学术会议

合肥

中文

72-78

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)