会议专题

一种基于重复数据删除的备份系统

  重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplicatioil),依次从目录、文件、块、字节粒度分层多步,由粗及细地匹配删除重复数据,同时采用bloom fnter和倒排索引技术,以减少不必要的数据匹配与磁盘访问,提高匹配查找速度.通过两组真实数据集的实验发现,THBS在备份过程中节省了63.1%~96.7%的存储空间,比Scp和Rsync分别节约了71.3%~97.6%,41.2%~66.7%的网络带宽,累计备份时间分别为Scp和Rsync的75%~86%和91%~97%.

数据备份 重复数据删除 层次化删冗 倒排索引技术

陆游游 敖莉 舒继武

清华大学计算机科学与技术系 北京 100084 清华大学计算机科学与技术系 北京 100084 清华大学信息科学与技术国家实验室(筹) 北京 100084

国内会议

2011年第17届全国信息存储技术大会(IST 2011)

济南

中文

206-210

2011-11-18(万方平台首次上网日期,不代表论文的发表时间)