会议专题

用于流数据的FP-tree算法

FP-growth算法是频繁模式挖掘中的经典算法,常用于静态数据集的挖掘。将FP-growth算法用于流数据方面,前人已经做了一些研究。但是FP-tree的创建需要两遍扫描数据库,在处理流数据方面收到了很大的限制,使用滑动窗口虽然能在一定程度上解决这一问题,但是依然会造成FP-tree生成时的不准确,影响到后续的挖掘。本文提出了一种用于流数据的FP-tree创建算法single-pass scan FP(SPSFP),单遍扫描数据库即可准确创建出FP-tree。与传统的FP-tree创建算法相比,本文算法仅扫描数据库一遍,并且不需要将整个数据库调入内存。该方法不仅节省了所占用的空间,而且使得准确挖掘流数据中的频繁模式成为了可能,它的时间耗费方面与传统方法相当。

FP-tree 流数据 单遍扫描

屠强 陆建峰 汤九斌 杨静宇

南京理工大学计算机科学与技术学院,南京 210094 中国电信江苏有限公司,南京

国内会议

2010年全国模式识别学术会议(CCPR2010)

重庆

中文

829-833

2010-10-21(万方平台首次上网日期,不代表论文的发表时间)