会议专题

大数据上基于Hadoop的不一致数据检测与修复算法

随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题.本文针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法.采用条件函数依赖作为约束规则检测不一致数据集并求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率.最后通过实验证明本算法较已有的单机算法有更好的修复效果。

数据库 数据质量 数据检测 修复算法

张安珍 门雪莹 王宏志 李建中 高宏

哈尔滨工业大学计算机科学与技术,黑龙江省哈尔滨市 150001

国内会议

第二届CCF大数据学术会议

北京

中文

1-13

2014-12-01(万方平台首次上网日期,不代表论文的发表时间)