基于约束信息的并行k-means算法

摘要：

为获得分布式环境下用户所期望的聚类结果，提出了基于约束信息的并行k-means聚类算法。在分析并行k-means能够有效实现对水平分布式数据进行聚类的基础上，将站点用户的约束信息以chunklet的形式引入到分布式聚类过程，通过修改并行k-means的目标函数，设计约束并行k-means算法，从而引导算法执行有偏搜索。算法在理论上确保无约束样本簇内距离最小的同时能够确保chunklet约束中的样本与对应的簇中心之间的平均距离最小。实验结果表明，约束并行k-means算法能够有效改善并行k-means的聚类精度，同时在分布式环境下能够得到与已有约束聚类算法在集中式数据集上相等价的聚类结果。

关键词： k-means 并行k-means 约束聚类约束并行k-means

作者: 於跃成王建东郑关胜陈斌

作者单位: 南京航空航天大学信息科学与技术学院，南京 210016 江苏科技大学计算机科学与工程学院，江苏镇江 212003 南京航空航天大学信息科学与技术学院，南京 210016

会议类型: 国内会议

会议名称: 第七届全国计算机支持的协同工作学术会议暨第五届全国智能信息网络学术会议

会议地点: 南京

会议语种:中文

页码: 1-5

在线出版日期: 2010-11-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于约束信息的并行k-means算法