会议专题

一种分布式环境下的改进k-Means聚类算法

聚类分析是数据挖掘领域的一项重要研究课题,聚类是将给定的样本集分组成相互分离的簇的过程。相同簇中的样本具有高的相似度,而不同的簇之间的样本具有高的相异度。相异度是根据描述对象的属性值来计算的。迄今为止,人们已经提出了许多聚类算法,诸如k-Means,DBSCAN,Birch,Cure,Sting等。各种聚类方法中,基于目标函数的K.Means聚类方法应用极为广泛,根据聚类结果的表达方式又可分为硬k-Means(HCM)算法、模糊k-means算法(FCM)和概率k-Means算法(PCM)。本文提出的算法在对样本进行预处理的基础上,利用了网格的性质,减少了距离的计算。试验结果表明,该算法有效地提高了分布式聚类的效率。

分布式环境 聚类算法 数据挖掘 相异度 聚类分析 模糊算法

林晓斌 叶东毅

福州大学数学与计算机学院,福州 350002

国内会议

第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC”2007)

太原

中文

89-91,107

2007-08-01(万方平台首次上网日期,不代表论文的发表时间)