会议专题

实体数据库中多相似连接顺序选择策略

  按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,研究了实体数据库上多表连接顺序选择方法,采用基于实体的马尔可夫链蒙特卡洛(MCMC)方法估计出实体数据库的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价,提出了基于实体的多连接顺序优化策略。进一步,通过实验证明了估计连接结果大小的算法在大规模数据上有着显著的优势。

实体数据库 相似性连接 马尔可夫链蒙特卡洛法 编辑距离 优化算法

LIU Xueli 刘雪莉 WANG Hongzhi 王宏志 LI Jianzhong 李建中 GAO Hong 高宏

School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China 哈尔滨工业大学计算机科学与技术学院,哈尔滨150001

国内会议

第29届中国数据库学术会议

合肥

中文

865-876

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)