会议专题

序列模式挖掘算法研究

本文给出了对于数据挖掘中序列模式的初步讨论,以及一些基本的概念和算法,并对这些算法进行了分析和评价,指出了它们的优缺点。实验数据表明,同AprioriAll算法相比较,GSP算法的运行时间大大降低了,效率提高了近20倍。ISE算法的性能优于GSP算法和SPADE算法,当增量数据添加进来时,GSP算法需要在新数据库上重新运行算法,没能充分利用以前挖掘得到的信息,因而效率很低。同时ISE算法也避免了SPADE算法中负边界的维护问题。ISE算法在性能上的优越性使得它对于挖掘序列模式以及增量挖掘都是有效的。但是整体上,序列模式挖掘仍然面临着不少的问题,如序列模式挖掘过程中如何让用户有效参与到挖掘过程中,与相关领域知识相结合进行有指导的挖掘,从而避免挖掘的盲目性。针对海量数据,序列模式挖掘算法在挖掘效率上还不高,仍然有待改进。作者认为,序列模式挖掘今后的发展方向主要包括以下几个方面:增量式挖掘,进行规则的更新与维护;将用户的先验知识、领域知识与计算智能算法相结合来指导挖掘过程,以缩小搜索空间,提高算法的效率和规则的兴趣度;面向对象数据库以及多维数据库中的序列模式挖掘;多维序列模式挖掘以及分布式序列模式挖掘等。

序列模式 数据处理 增量挖掘

申军

中国水利电力物资有限公司 北京100040

国内会议

中国管理科学与工程学会2013年年会暨第十一届中国管理科学与工程论坛

北京

中文

64-68

2013-11-02(万方平台首次上网日期,不代表论文的发表时间)