一种面向科学数据的通用排重模型
数据清洗是保证数据仓库中数据质量的必要过程,其中对重复数据的识别是数据清洗的一个技术难点.目前这方面的研究大多都是以排重算法的效率为主,还没有提出一个通用的排重模型,同时以科学数据为排重对象的研究较少.提出了一种关系型数据仓库中多级级联表的通用科学数据排重模型.还采用了分区排序的方法保证了该排重模型的效率并进行了详细的性能测试.理论和实践证明该模型针对科学数据具有高效性、稳定性和通用性。
数据清洗 数据排重 科学数据 排重模型 数据仓库
相文玺 宋杰 房强 丁辉 鲍玉斌 于戈
国家海洋信息中心 天津 300171 东北大学信息科学与工程学院 沈阳 110004
国内会议
桂林
中文
381-386
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)