会议专题

一种基于Hadoop和K-means的Web日志分析方案的设计

在信息时代的当下,企业对Web日志的挖掘越来越受到重视,针对传统的单机式Web日志分析技术不能满足爆炸式增长的Web日志的问题,本文设计了一种基于Hadoop和K-means聚类算法的Web日志分析平台系统.该系统实现了K-means算法在Hadoop平台下的并行化,在Map函数过程中计算样本点和各个中心点的距离并归类,在Reduce函数过程中重新计算中心点坐标.实验通过对某电子商务网站的用户事务进行聚类分析,结果表明,在大数据的情况下,本系统的计算效率更高.

网页日志 K-means聚类算法 数据挖掘 设计理论

付伟 白永超 辛阳

北京邮电大学信息安全中心,北京,100876

国内会议

第十九届全国青年通信学术年会

上海

中文

169-174

2014-10-15(万方平台首次上网日期,不代表论文的发表时间)