会议专题

一种基于语义引力及密度分布的聚类算法

由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法。一方面,将物理学中的质量和引力等概念引入到聚类分析中,将语义引力作为数据间相似性的度量方法,不但充分考虑了数据间的几何距离可分性,而且强调了数据间属性的相关性,使其对不规则分布的样本也有较好的聚类效果;另一方面,将基于划分的聚类与基于密度的聚类方法相结合并予以改进,通过对对象密度的计算,以密度较大的对象为聚类中心进行聚类,从而降低了由于初始聚类中心选择偏差造成的影响,保证了更好的精度。实验结果表明本文提出的算法具有更准确的聚类结果,特别是在文本这样的高维、稀疏的数据中更是如此。

聚类算法 语义引力 密度分布

李政涛 夏树倩 王大玲 冯时 张一飞

东北大学信息科学与工程学院,沈阳,110819 东北大学信息科学与工程学院,沈阳,110819;医学影像计算教育部重点实验室(东北大学),沈阳,110819 北大学信息科学与工程学院,沈阳,110819;医学影像计算教育部重点实验室(东北大学),沈阳,110819

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

570-577

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)