劣质数据库上阈值相似连接结果大小估计
劣质数据普遍存在于现代数据管理系统中,严重影响了数据的质量,从而降低了数据的实用性以及数据的价值,这为数据管理带来了新的挑战。当前,已经有不少管理劣质数据的数据模型被提出,实体关系数据模型是其中一种,其中每条元组表示一个现实世界中的实体。该模型允许劣质数据的存在,给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出达到一定质量的查询结果。鉴于该模型的特点,传统的查询代价估计方法不再适用,需要新的代价估计技术。文中研究如何估计连接操作结果的大小,提出了在应用局部敏感Hash算法对属性值聚类的基础上,再进行采样估计的方法,并且在聚类过程中考虑数据质量对查询结果的影响。与传统随机采样方法对比,实验结果表明文中估计方法有更好的准确性。
代价估计 采样估计 劣质数据 数据质量 阈值
张岩 杨龙 王宏志
哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001
国内会议
大连
中文
2159-2168
2012-10-01(万方平台首次上网日期,不代表论文的发表时间)