会议专题

密度偏差抽样及其在海量数据挖掘中的应用

海量的数据信息给数据挖掘带来了新的挑战.在现有的硬件设备(内存)的存储能力相对不足的情况下,如何快速和有效的在海量数据中挖掘有价值的信息,成为现今数据挖掘研究的一个热点.抽样作为数据约简的一种手段,已经被广泛地应用在数据挖掘领域,但所应用的抽样技术主要是简单随机抽样.本文介绍一种新的抽样策略:密度偏差抽样.研究分析了密度偏差抽样的主要思想,特点及其改进方法,进行了对比分析,并对密度偏差抽样在海量数据挖掘中主要是聚类领域的应用进行了深入探讨.

偏差抽样 数据约简 海量数据挖掘

张建锦 刘小霞

重庆邮电大学计算机科学与技术研究所,400065 北京邮电大学计算机科学与技术学院,100876

国内会议

2006北京地区高校研究生学术交流会

北京

中文

1600-1604

2006-12-22(万方平台首次上网日期,不代表论文的发表时间)