基于范围划分的多θ连接算法
在大数据时代背景下,连接运算是面向海量数据进行分析处理的核心内容之一.由于大规模数据被广泛分布在大量节点中,连接运算代价较高,因而如何提高连接运算的执行性能一直是研究的热点.θ连接的处理范围更广泛,不仅处理等值连接,还处理非等值连接,因此实现更加复杂.提出了基于范围划分的多连接算法(partition-based multi-theta join,PMTJ),通过采样划分的方法将连接属性发送至相对应的节点,从而实现多表的θ连接,减少了中间结果的读写代价.实验证明,优化技术可有效提高连接运算性能.
海量数据 多θ连接算法 范围划分 运算性能
张莹 李红燕 王腾蛟 雷凯
深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055;高可信软件技术教育部重点实验室(北京大学) 北京100871 北京大学信息科学技术学院 北京100871;机器感知与智能教育部重点实验室(北京大学) 北京100871 深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055;北京大学信息科学技术学院 北京100871;高可信软件技术教育部重点实验室(北京大学) 北京100871 深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055
国内会议
太原
中文
300-306
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)