一种基于Hadoop和K-means的Web日志分析方案的设计
在信息时代的当下,企业对Web日志的挖掘越来越受到重视,针对传统的单机式Web日志分析技术不能满足爆炸式增长的Web日志的问题,本文设计了一种基于Hadoop和K-means聚类算法的Web日志分析平台系统.该系统实现了K-means算法在Hadoop平台下的并行化,在Map函数过程中计算样本点和各个中心点的距离并归类,在Reduce函数过程中重新计算中心点坐标.实验通过对某电子商务网站的用户事务进行聚类分析,结果表明,在大数据的情况下,本系统的计算效率更高.
网页日志 K-means聚类算法 数据挖掘 设计理论
付伟 白永超 辛阳
北京邮电大学信息安全中心,北京,100876
国内会议
上海
中文
169-174
2014-10-15(万方平台首次上网日期,不代表论文的发表时间)