KBAC:-种基于K-means自适应聚类

摘要：

　　K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目，在一般应用场景下，用户无法给出合适的聚类核数目.另一方面.K- means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化，能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明，通过在云计算框架下实现K-means预聚类过程的并行化.KBAC算法能够高效地对大规模数据进行聚类，并获得高质量的聚类结果.

关键词： K-means MapReduce 聚类社团发现

作者: 徐晓旻肖仰华

作者单位: 复旦大学计算机科学技术学院,上海200433

会议类型: 国内会议

会议名称: 2012中国计算机大会

会议地点: 大连

会议语种:中文

页码: 2268-2272

在线出版日期: 2012-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

KBAC:-种基于K-means自适应聚类