搭建基于云计算的开源海量数据挖掘平台

摘要：

本文通过分析亚马逊弹性MapReduce(EMR)平台构架，针对信息情报机构内部数据处理的迫切需求，提出通过开源技术XEN和Hadoop平台构建基于云计算的动态可伸缩的海量数据处理平台并给出了实施方案、海量文本数据处理案例和开源EMR平台的优势分析。实施方案主要分为三部分。一、搭建动态虚拟的云计算环境；二、安装制作HADOOP虚拟服务器模板；三、配置运行cloudera和cloudera Desktop。

关键词：海量数据挖掘虚拟技术分布式计算

作者: 赵华茗

作者单位: 中国科学院国家科学图书馆,北京,100190

会议类型: 国内会议

会议名称: 第二十四届全国计算机信息管理学术研讨会

会议地点: 南宁

会议语种:中文

页码: 39-47

在线出版日期: 2010-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

搭建基于云计算的开源海量数据挖掘平台