会议专题

一种挖掘压缩序列模式的有效算法

从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法。由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集。本文受到压缩频繁项集思想的启发,提出了一种CFSP(CompressingFrequent Sequential Patterns)算法,其可挖掘出少量的有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式。CFSP是一种two-stops的算法:在第一步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第二步,该算法只花费了少量的时间去发现剩余的有代表性序列模式。一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性。

频繁序列模式 关联规则 数据挖掘 序列数据库 挖掘算法

童咏昕 张媛媛 袁玫 马世龙 于丹 赵莉

北京航空航天大学软件开发环境国家重点实验室 北京 100191 电信科学技术研究院 北京 100191 北京联合大学信息学院 北京 100084

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

104-111

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)