基于最小圆覆盖区域划分的索引过滤算法
过滤算法设计是信息内容安全处理系统中的一个重要环节,过滤速度成为衡量过滤系统性能的首要因素.索引结构是处理大规模数据的一种有效方式,但目前索引方法都是针对特定检索领域而设计,在实际过滤应用中,并不能满足过滤实时性需求.为了加快信息过滤中数据查询的判定速度,文中提出一种基于最小圆覆盖的区域划分方法,构建了适合过滤的索引结构:Ftree.该算法充分考虑实际过滤环境中正例(正常信息)多、反例(敏感信息)少的非平衡数据分布特性,利用最小圆覆盖划分方法得到最大否定判断区域.在查询阶段,正例以最大概率落入否定区域,根据否定性判定原理可以对正例快速否定判定,从而加快整体查询的判定速度.实验表明,与现有算法相比,所提出的算法减少了查询中的距离计算次数,有效提高了过滤查询性能.
过滤算法 最小圆覆盖 否定性判定 索引结构
陈洁 方滨兴 谭建龙 金世超
北京邮电大学计算机学院 北京 100876 中国科学院信息工程研究所信息智能处理实验室 北京 100093 中国科学院信息工程研究所信息智能处理实验室 北京 100093 中国科学院信息工程研究所信息智能处理实验室 北京 100093 北京大学软件与微电子学院 北京 100084
国内会议
大连
中文
2139-2146
2012-10-01(万方平台首次上网日期,不代表论文的发表时间)