会议专题

二元再生码在分布式存储系统的应用

分布式存储系统以其高效的可扩展性和高可用性成为存储大数据的主要系统.为了提高可靠性,需要在分布式存储系统中引入冗余.因此如何最优化存储空间、最小化修复带宽和最小化计算复杂度是衡量冗余存储系统效率的关键问题.再生码存储是一类可以达到存储空间与网络修复带宽最佳折中的存储方法,但现有的再生码的构造方法有大量有限域的乘法运算,其高昂的计算复杂度成为用于分布式存储系统中的主要瓶颈.实验结果表明,在保留再生码优势的前提下,采用移位和异或运算取代有限域的乘法运算可以大幅度地降低计算复杂度.创新之处在于提出了二元再生码(binary regenerating codes,BRGC),并给出了构造二元再生码的两类最佳再生码,即最小带宽二元再生码和最小存储二元再生码的方法.通过评估和对比主流的RS码和基于矩阵乘法的再生码,发现BRGC在计算复杂度方面有着明显的优势,在实际海量数据的分布式存储系统中具备更好的应用价值.BRGC在修复和解码性能均优于柯西(Cauchy Reed-Solomon)码.

分布式存储系统 二元再生码 设计框架 性能评价

侯韩旭 李挥 张华宇 朱兵

北京大学深圳研究生院 广东深圳 518055 深圳市融合网络播控技术工程实验室 广东深圳 518055 深圳市云计算关键技术和应用重点实验室 广东深圳 518055

国内会议

中国计算机学会第一届CCF大数据学术会议

北京

中文

45-53

2013-12-01(万方平台首次上网日期,不代表论文的发表时间)