不均衡数据的重采样算法及在声目标识别中的应用
在模式识别中,由于对象或条件限制,样本集中往往某些类别样本数量远大于其他类别。使用不均衡数据训练的分类器趋向于把样本识别为多样本类别(通常定义为”负类”),忽略少样本类别(定义为”正类”),严重影响分类器的实际性能。 数据处理,即调整训练集中各类样本的数量及分布,是解决数据不均衡问题的主要方法之一。现有算法包括多种降采样和超采样算法,但大多缺乏数据处理的理论指导。针对上述问题,本文从数据处理角度提出最近邻重采样算法(Nearest NeighborRe-sampling, NNR)以代价敏感学习理论为原则,综合数据清理、各类别样本数量的均衡并控制样本集的总体数量以提高所训练分类器识别性能,减少对训练时间和收敛速度的影响。
模式识别 声目标识别 重采样算法 不均衡数据 数据处理 代价敏感学习
管鲁阳 鲍明 张鹏 李晓东
中国科学院声学研究所,北京,100080
国内会议
上海
中文
516-517
2008-10-21(万方平台首次上网日期,不代表论文的发表时间)