面向高维数据的低冗余Top-k异常点发现方法
异常发现是数据挖掘领域的一类重要任务,一直以来受到研究人员的广泛关注。针对高维对象的异常度量问题和异常点集合的冗余问题,本文提出了一种新的面向高维数据的异常点发现方法。该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含多种不同属性的高维数据。为了解决top-k异常点集合中的冗余问题,我们提出了低冗余top-k异常点的概念。由于精确计算低冗余的top-k异常点是NP-hard问题,我们设计了计算近似低冗余的top-k异常点的启发式方法j-AnomaliesHD算法。从在真实和人工数据集上的实验结果可以看出,该方法不仅具有较好的扩展性,而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式。
高维数据 异常度量 异常点发现法 冗余问题
陈冠华 马秀莉 杨冬青 唐世渭 帅猛
北京大学信息科学技术学院 北京 100871 机器感知与智能教育部重点实验室(北京大学) 北京 100871
国内会议
南昌
中文
61-67
2009-10-15(万方平台首次上网日期,不代表论文的发表时间)