会议专题

基于距离的划分聚簇算法

k-means算法在聚簇大的数据集时是公认比较有效的算法之一,然而它只能应用在具有数值属性描述的数据对象集合上,这种数据对象叫做数值数据;却无法应用于真实世界中具有其他形形色色属性的数据对象集合上,比如颜色、纹理、形状等特征描述的数据对象集合,这种数据叫做分类数据.为了能对分类数据进行聚簇,对k-means算法进行了扩展,出现两种新的算法:一种是k-modes算法,另一种是k-protoypes算法.但这两种算法都需要用户事先确定聚簇数k阈值t和聚簇中心Q,在不明白数据分布状况的情况下能较准确地确定这3个参数值是很不容易的,改进的k-modes算法有效解决了这一问题.

聚簇 k-means k-modes k-prototypes 相异度 分类数据 距离划分

叶若芬 李春平

清华大学软件学院,北京,100084

国内会议

第二届全国Web信息系统及其应用会议(WISA2005”)

沈阳

中文

3-7

2005-09-01(万方平台首次上网日期,不代表论文的发表时间)