会议专题

基于主题模型的K-means初始聚类中心优化方法

K-means聚类算法简单高效,适合处理大规模数据,在文本挖掘领域应用广泛,但算法对初始聚类中心的选择非常敏感.本文基于LDA主题模型提出一种优化K-means初始聚类中心的算法.首先通过LDA主题抽取降低文档特征向量维度,将文档映射到主题空间,通过文档的主题特征确定初始聚类中心的选择;然后,利用平均准确率、F-Score和熵作为文本聚类效果评价指标,对选取的初始聚类中心的聚类结果进行评价.选取标准的机器学习语料库20newsgroup中的数据集作为试验数据,实验结果表明该方法可以根据文本语义信息优化Kmeans初始聚类中心的选择,提高K-means文本聚类效果.

数据挖掘 K-means聚类算法 初始聚类中心 优化方法 主题模型

关鹏 王日芬 张海永

南京理工大学经济管理学院,南京210094;巢湖学院应用数学学院,合肥238000 南京理工大学经济管理学院,南京210094 滁州学院数学与金融学院,滁州239000

国内会议

信息系统协会中国分会第六届学术年会

济南

中文

561-568

2015-10-24(万方平台首次上网日期,不代表论文的发表时间)