面向大数据分析的抗倾斜范围连接算法
随着数据爆炸式增长,如何及时有效地对大数据进行分析成为一项研究热点.连接算法在数据分析、数据库查询等众多领域具有广泛应用.非等值连接中的范围连接经常用于查找连接属性值相差在一定范围内的记录,需要进行数据源间的笛卡尔积操作,目前大数据分析平台都没有提供对范围连接的支持.此外,数据倾斜在实际应用中普遍存在,导致并行系统负载不均,严重影响连接查询性能.为了解决这些问题,提出一种适用于大数据分析的抗倾斜范围连接算法(skew insensitive range join,SIRJ),通过桶划分方法进行范围连接,同时避免了数据倾斜带来的负载不均和内存溢出等问题.最后,在平衡数据集和倾斜数据集下进行了实验,通过与先进方法对比,验证了SIRJ算法在网络传输代价、运行时间和负载均衡等方面更具优势.
数据倾斜 范围连接 大数据 网络传输代价 运行时间 负载均衡
廖文静 陈郁馨 李红燕 王腾蛟
深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055;高可信软件技术教育部重点实验室(北京大学) 北京100871 北京大学信息科学技术学院 北京100871;高可信软件技术教育部重点实验室(北京大学) 北京100871 北京大学信息科学技术学院 北京100871;机器感知与智能教育部重点实验室(北京大学) 北京100871 深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055;北京大学信息科学技术学院 北京100871;高可信软件技术教育部重点实验室(北京大学) 北京100871
国内会议
太原
中文
94-100
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)