用于流数据的FP-tree算法

摘要：

FP-growth算法是频繁模式挖掘中的经典算法，常用于静态数据集的挖掘。将FP-growth算法用于流数据方面，前人已经做了一些研究。但是FP-tree的创建需要两遍扫描数据库，在处理流数据方面收到了很大的限制，使用滑动窗口虽然能在一定程度上解决这一问题，但是依然会造成FP-tree生成时的不准确，影响到后续的挖掘。本文提出了一种用于流数据的FP-tree创建算法single-pass scan FP(SPSFP)，单遍扫描数据库即可准确创建出FP-tree。与传统的FP-tree创建算法相比，本文算法仅扫描数据库一遍，并且不需要将整个数据库调入内存。该方法不仅节省了所占用的空间，而且使得准确挖掘流数据中的频繁模式成为了可能，它的时间耗费方面与传统方法相当。

关键词： FP-tree 流数据单遍扫描

作者: 屠强陆建峰汤九斌杨静宇

作者单位: 南京理工大学计算机科学与技术学院,南京 210094 中国电信江苏有限公司,南京

会议类型: 国内会议

会议名称: 2010年全国模式识别学术会议(CCPR2010)

会议地点: 重庆

会议语种:中文

页码: 829-833

在线出版日期: 2010-10-21（万方平台首次上网日期，不代表论文的发表时间）

会议专题

用于流数据的FP-tree算法