会议专题

基于改进的SMOTE和RST的新型混合重取样算法

  分类是数据挖掘和知识发现的重要任务之一,非均衡数据是分类中的常见问题。真实世界的分类问题存在很多类别非均衡的情况,非均衡数据集自身的特点(少数类数据的绝对缺乏和相对缺乏、数据碎片、噪声)以及传统分类算法的局限性(不恰当的评价标准和不恰当的归纳偏置)是对非均衡数据集进行准确可靠分类的关键制约因素。非均衡数据的分类问题已成为机器学习和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。针对非均衡数据集分类性能提高的解决方法主要围绕数据层面和算法层面进行。数据层主要是通过去除多数类实例的欠采样或人工合成少数类实例的过采样达到均衡训练集的目的。本文提出一种新的解决非均衡数据集的预处理方式(记为ImSMOTE-RSTR*),通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,所提出的算法被验证得到较理想的结果。

非均衡数据集 分类性能 预处理方式 混合重取样算法

GU Qiong 谷琼 YUAN Lei 袁磊 NING Bin 宁彬 WU Zhao 吴钊 HUA Li 华丽 LI Wen-Xing 李文新

School of Mathematics and Computer Science, Hubei University of Arts and Science, Xiangyang 441053, 湖北文理学院数学与计算机科学学院 襄阳 441053

国内会议

第18届全国信息存储技术学术会议

无锡

中文

390-395

2012-07-12(万方平台首次上网日期,不代表论文的发表时间)