会议专题

云环境中一种面向海量稀疏数据存储的缺失值处理方法

  如何处理缺失值一直是数据库领域中一个值得关注的问题,缺失值问题的研究对于提高运算效率和保证系统健壮性具有重要意义。云环境中海量数据的稀疏性使缺失值问题变的更加突出,现有的处理方法要么语义表达能力有限,要么未考虑到云环境对其的影响。针对这些问题,提出了一种面向海量稀疏数据存储的缺失值处理方法:首先结合现实的云环境应用,把缺失值归纳为未知值和不存在值两类;其次基于该语义定义了算术运算及比较运算;然后利用规约的方法降低四值逻辑的复杂性,以定义其逻辑运算。最后在真实的大规模稀疏数据集上进行了多组实验,证明了所提出的缺失值语义具有较好的语义表达能力和存储性能。

海量稀疏数据 缺失值处理 算法优化 性能测试

Chen Yuxin 陈郁馨 Cheng Xu 程序 Zhao Peng 赵鹏 Meng Biping 孟必平 Li Hongyan 李红燕 Wang Tengjiao 王腾蛟

School of Software and Microelectronics, Peking University, Beijing 102600 北京大学软件与微电子学院 北京 102600 School of Electronics Engineering and Computer Science, Peking University, Beijing 100871; Key Labor 北京大学信息科学技术学院 北京 100871;高可信软件技术教育部重点实验室(北京大学) 北京100871 School of Electronics Engineering and Computer Science, Peking University, Beijing 100871;Key Labora 北京大学信息科学技术学院 北京 100871;机器感知与智能教育部重点实验室(北京大学) 北京100871 School of Software and Microelectronics, Peking University, Beijing 102600; School of Electronics En 北京大学软件与微电子学院 北京 102600;北京大学信息科学技术学院 北京 100871;高可信软件技术教育部重点实验室(北京大学) 北京100871

国内会议

第29届中国数据库学术会议

合肥

中文

316-322

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)