会议专题

KBAC:-种基于K-means自适应聚类

  K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面.K- means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化.KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.

K-means MapReduce 聚类 社团发现

徐晓旻 肖仰华

复旦大学计算机科学技术学院,上海200433

国内会议

2012中国计算机大会

大连

中文

2268-2272

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)