基于协同采样主动学习的恶意代码检测
由于互联网的飞速发展以及各种利益的驱使,恶意代码已经对网络空间造成重大威胁,而且其产生速度逐步加快.目前,主要采用传统分类方法对恶意代码进行分类识别,这些方法需要通过学习大量标记样本来获得精准的分类器模型.然而样本标记工作只有少数专家才能完成,导致标记样本往往不足,致使分类结果准确率不高.针对该问题,本文提出一种基于协同采样的主动学习方法,仅需少量标记样本即可有效识别出恶意代码,相对于传统的恶意代码分类方法,能够显著提升分类准确率和泛化性能.通过实验,证明了协同采样主动学习方法的有效性。相比于随机采样的分类方法,采用协同采样主动学习方法能够显著提高分类的各项性能指标。尤其是在标记样本总数相对较少情况下,提升更为明显。此外本文实验是将总体数据集划分为相互独立的训练集和测试集,因此也证明了协同采样主动学习方法优异的泛化性能。该方法有效的原因在于主动学习样本集中主要是基准分类器不能够正确分类的样本,这些样本相对于随机选取的样本,包含更多有益于提升基准分类器性能的信息。此外由于进行两轮训练,且第二轮训练中通过引用主动学习样本引入测试集的样本信息,从而提升了分类器的泛化性能。
网络安全 恶意代码 分类识别 协同采样 主动学习
张凯 王东安 张晓宇 侯子骄
中国科学院信息工程研究所,北京100093;中国科学院大学,北京100049 国家计算机网络应急技术处理协调中心,北京100029 中国科学院信息工程研究所,北京100093 中国科学院信息工程研究所,北京100093;北京航空航天大学,北京,100191
国内会议
武汉
中文
165-170
2015-05-26(万方平台首次上网日期,不代表论文的发表时间)