会议专题

关于数据密集型的众包清洗平台

互联网在产生大量数据的同时,也产生了很多的错误,数据清洗因而成为重要而迫切的任务.当前的数据清洗技术存在清洗算法不合理和清洗效率低2方面不足.众包是一种拥有广泛用户基础的完成任务的新模式,具有高效廉价的特点,可以弥补当前清洗技术的不足,但目前还没有专用于数据清洗的众包平台.针对传统数据清洗方法的不足,面对数据密集型发展趋势,借助新型高效的众包平台,提出一种新的基于众包数据清洗模型,经获取清洗任务、生成HIT任务、用户完成任务、回收任务并存储答案、对用户评价5个步骤,在保证清洗准确性的同时高效廉价地完成清洗任务.

密集型数据 清洗算法 众包平台

李可利 王宏志 叶晨 郭欣彤 李建中 高宏

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150000

国内会议

第31届中国数据库学术会议

太原

中文

391-394

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)