海量数据分析的One-size-fits-all OLAP技术
通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术。通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性。提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价。实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率。
OLAP技术 关系数据库 海量数据 数据处理 谓词向量 星型模型
张延松 焦敏 王占伟 王珊 周烜
数据工程与知识工程教育部重点实验室(中国人民大学)北京100872;中国人民大学中国调查与数据中心 北京100872 数据工程与知识工程教育部重点实验室(中国人民大学)北京100872;中国人民大学信息学院 北京100872
国内会议
上海
中文
1936-1946
2011-10-21(万方平台首次上网日期,不代表论文的发表时间)