会议专题

基于特征关联度的K-means初始聚类中心优化算法

如何使用文本聚类等数据挖掘技术有效地分析和利用这些海量文本数据,已经经受到了研究人员越来越多的关注。目前,聚类算法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法、基于网格的方法、模糊聚类方法等k-means是最常用的聚类算法之一,但其对初始聚类中心敏感.现有的改进算法都关注于如何在原始的数据集中寻找更好的初始聚类中心,但在文本聚类中,原始文本集中单个文本的类别代表性较弱,不适合选为聚类中心.本文提出了基于特征关联度的初始聚类中心选择算法,从整个文本集的特征词集合中,选取关联度大的特征词构造新的文本集,并在该文本集内通过文本合并等操作得到类别代表性较强的初始聚类中心候选集,再从中选取最优的初始中心.实验表明,该算法选出的初始中心类别代表性更强,且在5个实验数据集的多数聚类结果中,F-score值都在90%以上,熵小于0.5,明显优于Mahout提供的k-means算法.相比该算法,本文提出的基于特征关联度的K-means初始聚类中心优化算法可选出高质量的初始聚类中心,从而得到更好的聚类结果.

数据挖掘 初始聚类中心 K-均值聚类 特征关联度

国内会议

第八届中国可信计算与信息安全学术会议

湖北恩施

中文

1-8

2014-09-13(万方平台首次上网日期,不代表论文的发表时间)