一种优化关系型溯源信息存储的新方法
现代数据管理必须处理来源不同、质量各异的数据,因此从系统层面支持数据溯源,让用户了解数据的来源及派生过程成为当前至关重要的一个研究课题。基于标注的方法是支持数据溯源的基本方法之一。这种方法的主要问题是存储空间开销,因为溯源信息可能会超过实际数据的大小。在本文中,作者提出了一个用与查询结构匹配的溯源树来表达和存储溯源信息从而避免数据派生过程中冗余存储的基本框架。基于这个框架,作者提出了一系列针对关系型查询的存储优化方法,选择查询树部分节点来存储溯源信息。这些优化算法对于查询大小是多项式时间,对于溯源信息大小是线性时间,在溯源信息的跟踪和优化方面均不会产生巨大的开销。这一框架是数据溯源研究的一个新思路,有着广泛的应用前景。
数据管理 溯源信息 关系型查询 存储空间 最优削剪算法
王黎维 鲍芝峰 KOEHLERHenning 周晓方 SADIQShazia
武汉大学国际软件学院 武汉430072 新加坡国立大学计算机学院 新加坡117417 昆士兰大学信息技术与电子工程学院 澳大利亚4072 昆士兰大学信息技术与电子工程学院 澳大利亚4072;数据工程与知识工程教育部重点实验室(中国人民大学)北京100872
国内会议
上海
中文
1863-1875
2011-10-21(万方平台首次上网日期,不代表论文的发表时间)