一种分布式环境下的改进k-Means聚类算法
聚类分析是数据挖掘领域的一项重要研究课题,聚类是将给定的样本集分组成相互分离的簇的过程。相同簇中的样本具有高的相似度,而不同的簇之间的样本具有高的相异度。相异度是根据描述对象的属性值来计算的。迄今为止,人们已经提出了许多聚类算法,诸如k-Means,DBSCAN,Birch,Cure,Sting等。各种聚类方法中,基于目标函数的K.Means聚类方法应用极为广泛,根据聚类结果的表达方式又可分为硬k-Means(HCM)算法、模糊k-means算法(FCM)和概率k-Means算法(PCM)。本文提出的算法在对样本进行预处理的基础上,利用了网格的性质,减少了距离的计算。试验结果表明,该算法有效地提高了分布式聚类的效率。
分布式环境 聚类算法 数据挖掘 相异度 聚类分析 模糊算法
林晓斌 叶东毅
福州大学数学与计算机学院,福州 350002
国内会议
第七届中国Rough集与软计算、第一届中国Web智能、第一届中国粒计算联合会议(CRSSC-CWI-CGrC”2007)
太原
中文
89-91,107
2007-08-01(万方平台首次上网日期,不代表论文的发表时间)