会议专题

基于数据位图的滑动分块算法

网络中相似的数据文件进行同步与存储的过程中,对数据进行分块,是检测数据重复的重要步骤之一,在有效的对数据分块的基础上才能更准确的定位数据间的差异部分.本文就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹为补充校正滑动分块算法定位差异数据的能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.

数据库 文件管理 滑动分块算法 排列形式

邓雪峰 孙瑞志 张永瀚 聂娟

中国农业大学农业部农业信息获取技术重点实验室 北京100083 北京农学院计算机与信息工程学院 北京100083

国内会议

第二届CCF大数据学术会议

北京

中文

1-10

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)