基于计数的数据流频繁项挖掘算法
挖掘数据流的频繁项已受到广泛关注,经典的频繁项挖掘算法尽管能够比较好地找到频繁项,但对频繁项频数的估计往往存在较大误差。SRoEC,SReEC和RFreq算法针对该问题,继承基于计数的算法思想,将计数器进行划分并定义相应的操作,以期提高频数统计准确度并减小“噪音”影响。实验和数据分析表明,这些算法不仅能够保证频数超过阈值的数据项都能被找到,而且大大提高了频繁项频数统计的准确性。在同样空间代价下,算法无论在模拟数据集和真实数据集实验中,都表现出较高的频数准确率、较低的频数偏差率和较高的频数保有率,尤其是数据分布较平缓时,算法优势更加明显。
数据流频繁项 RFreq算法 数据挖掘 频数估计
祝然威 王鹏 刘马金
复旦大学计算机科学技术学院 上海 201203
国内会议
上海
中文
1803-1811
2011-10-21(万方平台首次上网日期,不代表论文的发表时间)