会议专题

多数据源环境下的数据质量量化方法

  提出了一种在背景范围内的数据质量量化方法QDC(Quantify Dimensions within Context)。数据质量可以用数据和其对应实体的“完美表达”间的差距来衡量,由于“完美表达”很难获得或代价很高。因此提出在多数据源条件下,数据的“完美表达”可以在其背景范围内用其“最近似”来替代,从而确定了数据质量评估参照的标准。同时,利用信息论中信息熵的概念,将不同类型数据的质量维度统一为通用的量化指标。作为一种自动化的数据质量评估方法,QDC方法不仅能够对数据的准确性和完整性维度给出准确的评估值,并且具有很高的计算效率。

数据处理 多数据源环境 信息熵 量化分析

HAN Jingyu 韩京宇 JIANG Dawei 江大伟

Department of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003;Department 南京邮电大学计算机学院,南京,210003;东南大学计算机科学与工程学院,南京,210096 Department of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003 东南大学计算机科学与工程学院,南京,210096

国内会议

第19届全国计算机新科技与计算机教育学术大会

黄山

中文

592-597

2008-08-02(万方平台首次上网日期,不代表论文的发表时间)