会议专题

基于Hadoop的电网数据质量校验方法与验证系统

在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求.大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台.为此,本文提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBase和MapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升.在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案.

数据库 电力数据 质量校验 运作模式

张志亮 孙煜华 陈承志 龙庆麟 梁国辉 顾荣 杨滨诚 黄宜华

广州供电局 广州科腾信息技术有限公司 江苏省软件新技术与产业化协同创新中心

国内会议

第二届CCF大数据学术会议

北京

中文

1-12

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)