会议专题

数据挖掘中聚类问题的拓扑描述

聚类分析是数据挖掘的常用方法之一.从聚类的角度看,其他数据挖掘方法不过是对聚类的一种特例采用不同的建模方法进行研究而已.聚类分析通常采用距离量度来描述相似性,但拓扑关系比距离具有更强的普适性和灵活性.从拓扑的角度出发,对聚类问题进行描述,说明了聚类过程实际上等价于拓扑空间求基的过程,并严格论证了以基于距离矩阵的传递闭包为代表的聚类方法结果的实质就是拓扑空间的最粗的基,并通过具体数据挖掘实例验证了它的正确性.从而揭示了聚类问题与数学上的拓扑空间之间的联系,为聚类方法研究提供了联系其他领域的新思路。

数据挖掘 聚类 拓扑空间 基 距离矩阵

刘刚 贾利民 杨旭

铁道科学研究院电子计算所,北京,100081 北京交通大学交通运输学院,北京,100044 北京交通大学计算机与信息技术学院,北京,100044

国内会议

2005第一届中国分类技术与应用研讨会(CSCA)

北京

中文

82-84

2005-09-23(万方平台首次上网日期,不代表论文的发表时间)