会议专题

分布式有序表中一种有效的在线计划批量插入方法

为有效地存储指数级增长的数据集,人们通常利用分布式有序表来存储数据,数据批量插入是数据库系统中的一个十分常见的操作,所以如何在分布式有序表中高效地执行数据批量插入操作就十分重要.现有方法是利用一个插入前的计划过程,可以较好地执行批量插入操作,可是该方法要求获得所有新数据,关键在于获得新数据较准确的数据分布,提出一种在线计划的批量插入操作,不需要等待所有的数据接收完毕才开始执行计划过程,而是根据获得新数据的样本,利用内核密度估计方法,较准确地估计新数据分布,并且还提供了计算估计分布置信区间的方法,如果估计分布的置信区间超过系统给定的阈值就可以执行计划操作.在实验给定数据集上,系统只需要接收0.01%的样本数据就可以得到概率为95%、误差在0.05之内的估计分布.

批量插入 在线计划 内核密度估计 分布式有序表 数据库系统

韩希先 李建中

哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

331-338

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)