一种基于关联分析的空间数据中心负载均衡算法
随着空间数据的储量迅速增大,地理空间信息的大数据时代已经到来,空间数据库开始更多的在并行环境下搭建.数据中心是大规模并行数据存储的代表,能对超大规模的异构数据集进行存储和处理,并发地向大量用户提供全天候服务,因此,将空间数据库构建于数据中心是实现海量空间数据为大量用户提供全天候服务的重要途径.数据中心上存储的数据价值密度存在差异,且处于动态变化之中,因此常存在负载不均衡的问题,导致数据中心的全局性能存在明显的“木桶效应”制约空间数据库的实际性能表现。为均衡数据中心负载,从数据和任务单元间的差异和关联入手,设计一种基于关联分析的空间数据中心负载均衡算法RBLC,主要由资源及负载检测模块和负载预测及迁移模块组成。资源及负载检测模块主要任务是实现对数据中心资源及负载的检测和量化。算法在开始时对数据中心当前负载情况进行检测,判断是否需要激活负载迁移阶段;若需要,优先考虑通过修改索引文件,将负载迁移至数据单元的备份节点,若备份节点上负载不适合进行负载迁入,则对任务队列和工作节点负载进行检测,选取当前和后续任务进行时负载较轻节点,对负载进行迁移。通过在实验室中搭建Hadoop平台,并模拟出4000个工作节点,对RBLC算法、Capacity Scheduler,BitDew等算法进行了对比测试,结果表明,RBLC算法的数据迁移频率明显低于其他算法,且稳定时负载分布更加均匀,负载均衡的效率更高。
地理空间数据 负载均衡 RBLC算法 关联分析
李兆兴 翟京生
解放军信息工程大学 郑州 450004
国内会议
武汉
中文
1-1
2015-10-31(万方平台首次上网日期,不代表论文的发表时间)