一种基于Hadoop平台的海量Web数据挖掘系统研究与实现
针对目前Web数据规模的快速增长,传统的基于单机的数据挖掘模式不能胜任当前Web海量数据存储与处理。随着“云计算”技术的兴起,将传统的数据挖掘方法与“云计算”平台融合以提高数据挖掘的效率成为一种研究方向。本文将传统的遗传算法与Hadoop的MapReduce进行融合,针对Hadoop的分布式文件存储系统HDFS中的海量Web数据进行挖掘。为进一步验证该平台的高效性,在该平台上利用融合后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在Hadoop中运用分布式算法处理大量的Web数据,可以明显提高Web数据挖掘的效率。
云计算 Hadoop平台 数据挖掘系统 遗传算法
ZHU Xiang 朱湘 JIN Song-chang 金松昌 JIA Yan 贾焰
Computer School,National University of Defense Technology,Changsha 410073,China 国防科技大学计算机学院,长沙 410073
国内会议
北京
中文
72-76
2012-08-17(万方平台首次上网日期,不代表论文的发表时间)