挖掘数据流中的频繁项集
在网络监测、点击流、电信呼叫记录等许多领域中,数据以流的形式出现.挖掘并分析数据流中的频繁项集是获得数据流中有用信息的一种方法.由于数据流具有无限性和连续性的特点,使得传统的挖掘方法难以适用.挖掘数据流中的频繁项集是当前数据挖掘研究领域的研究热点. 许多研究人员已经对数据流中的频繁模式挖掘进行了广泛的研究.本文利用count sketch数据结构提出了挖掘前k个最频繁的频繁项集的算法.提出了Lossy Counting算法挖掘数据流中的频繁1项集,并对频繁项集的挖掘给出了实践方法.利用Count-Min Sketch数据结构对数据流中数据项进行统计查询.提出了一种新的FP-DS算法.该算法采用分段思想,利用改进的FP-growth算法逐段重建FP树挖掘频繁项集.当数据流中的频繁项集增加较多时,算法的效率下降很大。
频繁项集 数据流 挖掘数据流 数据挖掘 FP树挖掘 Rough集
郑学双 黄厚宽
北京交通大学计算机与信息技术学院,北京,100044
国内会议
第六届中国Rough集与软计算学术研讨会(CRSSC”2006)
浙江金华
中文
166-167
2006-10-30(万方平台首次上网日期,不代表论文的发表时间)