一种基于重复数据删除的备份系统
重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplicatioil),依次从目录、文件、块、字节粒度分层多步,由粗及细地匹配删除重复数据,同时采用bloom fnter和倒排索引技术,以减少不必要的数据匹配与磁盘访问,提高匹配查找速度.通过两组真实数据集的实验发现,THBS在备份过程中节省了63.1%~96.7%的存储空间,比Scp和Rsync分别节约了71.3%~97.6%,41.2%~66.7%的网络带宽,累计备份时间分别为Scp和Rsync的75%~86%和91%~97%.
数据备份 重复数据删除 层次化删冗 倒排索引技术
陆游游 敖莉 舒继武
清华大学计算机科学与技术系 北京 100084 清华大学计算机科学与技术系 北京 100084 清华大学信息科学与技术国家实验室(筹) 北京 100084
国内会议
济南
中文
206-210
2011-11-18(万方平台首次上网日期,不代表论文的发表时间)