会议专题

一种基于改进K值和初始中心点选择的K-Means算法

K-Means是一种基于划分的聚类算法,然而传统的K-Means算法事先必须知道聚类的数目值K,并且初始的K个聚类中心的选择是随机的。针对此算法的这两个缺点提出了一种改进的K-Means聚类算法。首先引入自适应K值概念,给出某一教据集(例如文档集),计算不同K值下的聚类结果,通过聚类结果评估函数得到最优的K值,接着将样本数据转化为高维空间上的数据点,建立每个数据点的影响函数(数学函数模型),使其形式化描述数据点在其领域内的影响,计算数据点的密度函数值(该数据点与所有数据点的影响函数之和),从其中挑选出密度函数值较大且相互分离尽可能大的K个数据点作为K-Means算法聚类的初始中心点.实验表明,该算法可以生成质量较高而且聚类波动性较小的结果。

自适应K值 影响函数 密度函数 聚类算法

曾新红 黄华军 明仲

深圳大学图书馆 深圳 518060 深圳大学信息工程学院 深圳 518060

国内会议

2008全国软件与应用学术会议(NASAC”08)

广州

中文

469-472

2008-11-11(万方平台首次上网日期,不代表论文的发表时间)