大规模数据密集型系统中的去重查询优化
在大规模数据密集型系统中,海量数据分布存储在多节点,给去重查询提出了新的挑战。本文针对去重查询中可能出现的不同情况,提出了一种有效地数据分布策略和并行处理方法:即散列和直方图相结合的数据分布策略,以及异步式并行查询引擎,对多节点的去重查询进行优化。异步式并行查询引擎充分发掘了海量数据处理中流水级的并行,消除了多节点同步等待的开销,能够尽早地返回用户结果,降低去重查询的响应时间。在真实系统DBroker上的实验表明,数据分布策略能极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有明显的性能提升。
数据挖掘 信息检索 去重查询 并行引擎
宋怀明 安明远 王洋 袁春阳 孙凝晖
中国科学院计算技术研究所计算机系统结构重点实验室 北京 100190;中国科学院研究生院 北京 100049 家计算机网络应急技术处理协调中心 北京 100029shm@ncic.ac.cn 中国科学院计算技术研究所计算机系统结构重点实验室 北京 100190
国内会议
无锡
中文
486
2008-10-30(万方平台首次上网日期,不代表论文的发表时间)