一种分布式环境下的改进k-Means聚类算法

摘要：

聚类分析是数据挖掘领域的一项重要研究课题，聚类是将给定的样本集分组成相互分离的簇的过程。相同簇中的样本具有高的相似度，而不同的簇之间的样本具有高的相异度。相异度是根据描述对象的属性值来计算的。迄今为止，人们已经提出了许多聚类算法，诸如k-Means，DBSCAN，Birch，Cure，Sting等。各种聚类方法中，基于目标函数的K.Means聚类方法应用极为广泛，根据聚类结果的表达方式又可分为硬k-Means(HCM)算法、模糊k-means算法(FCM)和概率k-Means算法(PCM)。本文提出的算法在对样本进行预处理的基础上，利用了网格的性质，减少了距离的计算。试验结果表明，该算法有效地提高了分布式聚类的效率。

关键词：分布式环境聚类算法数据挖掘相异度聚类分析模糊算法

作者: 林晓斌叶东毅

作者单位: 福州大学数学与计算机学院,福州 350002

会议类型: 国内会议

会议名称: 第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC”2007)

会议地点: 太原

会议语种:中文

页码: 89-91,107

在线出版日期: 2007-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种分布式环境下的改进k-Means聚类算法