通过数据取样扩展基于密度的聚类算法

摘要：

数据聚类（ｃｌｕｓｔｅｒｉｎｇ）是数据挖掘中是广为研究的课题之一。聚类技术在许多领域有着广泛的应用。基于密度的聚类算法（ＤＢＳＣＡＮ）是一种有效的空间聚类算法，它能发现任意形状的聚类和有效地处理噪声点（ｎｏｉｓｅ），并且只需用户输入一个参数。但ＤＢＳＣＡＮ算法在进行大规模空间数据库数据聚类时需要较大的内存和Ｉ／Ｏ消耗。该文在分析原有ＤＢＳＣＡＮ算法的基础上，通过数据取样来扩展ＤＢＳＣＡＮ算法，使之有效地处理大规模空间数据库，测试结果表明该文方法是有效的、可行的。

关键词：空间数据库数据挖掘数据聚类数据取样 DBSCAB算法

作者: 范晔周水庚曹晶周傲英

作者单位: 大学计算机科学系(上海)

会议类型: 国内会议

会议名称: 第十六届全国数据库学术会议

会议地点: 兰州

会议语种:中文

页码: 319～325

在线出版日期: 1999-08-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

通过数据取样扩展基于密度的聚类算法