DEODS:快速准确的数据流密度估计
数据流上的密度估计可以获得数据流的分布情况及基本特征,为其它数据挖掘操作提供有价值的信息,因此这方面的研究日益为数据库界所关注。由于数据流具有数据量大和不断增长的特点,传统的核密度估计方法并不适合。本文提出了“增量估计”和“核合并”两种新技术,并在此基础上给出了一种新的估计数据流密度的DEODS算法。“增量估计”使得算法只需对数据进行单遍扫措,“核合并”保证了算法只需要固定大小的内存。我们在具有不同分布、不同数据顺序的数据流上对运行时间、误差率、输出结果能力等进行了一系列实验,实验结果表明,DEODS算法的运行时间与数据规模成线性关系,与传统方法相比,其估计结果的误差率是相当的,且算法能在处理过程中随时输出结果。 本文研究工作的出发点在于如何有效地处理数据流,并从中提取出有价值的信息。本文的工作集中于如何在对数据流上有效的计算估计密度函数。但是在很多场合中,只有数据分布的信息是远远不够的。所以我们正在进行在数据流上其他信息的挖掘和抽取工作,包括聚类、寓群点分析、中位数估计等等。
数据流 密度估计 数据挖掘
蔡致远 魏藜 钱卫宁 周傲英
复旦大学计算机科学与工程系,上海,200433
国内会议
郑州
中文
135-138
2002-08-26(万方平台首次上网日期,不代表论文的发表时间)