会议专题

基于非均衡数据集的新型混合重取样算法

  本文在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法。该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布的真实特性,自适应调整近邻选择策略,对不同属性的数据采取不同的复制方法生成新的少数类实例,控制和提高合成样本的质量;并通过对合成之后的数据集用改进的邻域清理方法进行适当程度欠取样,去掉多数类中的冗余实例和边界上的噪音数据,减少其规模,在一定程度上达到相对均衡,从而可有效地处理非均衡数据分类问题,提高分类器的性能。

非均衡数据集 混合重取样算法 近邻选择策略

谷琼 王贤明 李文新

襄樊学院数学与计算机科学学院,湖北襄樊 441053 温州大学瓯江学院,浙江温州 325035

国内会议

2010年全国理论计算机科学学术年会

呼和浩特

中文

55-60

2010-08-17(万方平台首次上网日期,不代表论文的发表时间)