会议专题

基于滑动窗口的Top-K概率频繁项查询算法研究

  频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,从而减少查询代价.另外,该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并利用泊松分布计算元素成为频繁项的概率上下界,提出相应的过滤策略,可以显著减少检测数据的数量,提高查询效率.实验结果表明,所提出算法可以有效地减少候选集、降低搜索空间、改善在不确定数据流上的查询性能.

数据库 频繁项查询技术 计算方法 滑动窗口

Wang Shuang 王爽 Wang Guoren 王国仁

Software College, Northeastern University, Shenyang 110819; School of Information Science and Engine 东北大学软件学院 沈阳 110819;东北大学信息科学与工程学院 沈阳 110819 School of Information Science and Engineering, Northeastern University, Shenyang 110819 东北大学信息科学与工程学院 沈阳 110819

国内会议

第29届中国数据库学术会议

合肥

中文

2189-2197

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)