基于距离的划分聚簇算法
k-means算法在聚簇大的数据集时是公认比较有效的算法之一,然而它只能应用在具有数值属性描述的数据对象集合上,这种数据对象叫做数值数据;却无法应用于真实世界中具有其他形形色色属性的数据对象集合上,比如颜色、纹理、形状等特征描述的数据对象集合,这种数据叫做分类数据.为了能对分类数据进行聚簇,对k-means算法进行了扩展,出现两种新的算法:一种是k-modes算法,另一种是k-protoypes算法.但这两种算法都需要用户事先确定聚簇数k阈值t和聚簇中心Q,在不明白数据分布状况的情况下能较准确地确定这3个参数值是很不容易的,改进的k-modes算法有效解决了这一问题.
聚簇 k-means k-modes k-prototypes 相异度 分类数据 距离划分
叶若芬 李春平
清华大学软件学院,北京,100084
国内会议
沈阳
中文
3-7
2005-09-01(万方平台首次上网日期,不代表论文的发表时间)