会议专题

基于类间离散度的文档敏感内容识别算法研究

敏感数据信息一旦被外泄,后果将不堪设想.而防泄密管理中亟待解决的重大问题,即是如何能快速、准确地从大量数据信息识别敏感内容.本文首先基于敏感文本库,训练已知分类文本集;在简便有效的文本敏感特征提取方法的基础上,引入类间离散因子修正传统的TF-IDF权值确定方法;随后利用支持向量机构建分类器,以识别和判断敏感文本内容.实验表明,在查准率、查全率、F1测试值,虚警、漏检,以及处理时间等方面,该算法具有较高的准确性和高效性.

敏感文本检测 内容识别 特征提取 类间离散度 支持向量机

秦艺文 杨榆

北京邮电大学信息安全中心,北京,100876

国内会议

第十届中国通信学会学术年会

北京

中文

223-228

2014-10-01(万方平台首次上网日期,不代表论文的发表时间)