基于分而治之及Hash链表的图分类算法
主流的图结构数据分类算法大都是基于频繁子结构挖掘策略,这一策略必然导致了对全局数据空间的不断重复搜索,从而使得该领域相关算法的效率较低无法满足特定要求.针对此类算法的不足,采用了分而治之方法,设计出一种模块化数据空间和利用Hash 链表存取地址及支持度的算法;将原始数据库按照规则划分为有限的子模块,利用gSpan 算法对各个模块进行操作获取局部频繁子模式,再利用Hash 函数将各模块挖掘结果映射出唯一存储地址同时记录其相应支持度构成Hash 链表,最后得到全局频繁子模式并构造图数据分类器.算法避免了对全局空间的重复搜索从而大幅度提升了执行效率;也使得模块后的数据可以一次性装入内存从而节省了内存开销.实验表明:新算法在分类模型塑造环节的效率较之于主流图分类算法提升了1.2—3.2 倍,同时分类准确率也与之高度可比.
图数据分类 分而治之 模块化数据 Hash链表 分类效率
孙伟 朱正礼
南京林业大学信息科学技术学院,南京,210037 南京林业大学信息科学技术学院,南京,210037;南京理工大学计算机科学与技术学院,南京,210094
国内会议
长春
中文
1-5
2012-08-04(万方平台首次上网日期,不代表论文的发表时间)