非均衡文本分类中基于特征分布的抽样技术研究
在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOTE算法提出的通过构造新的小类样本做Over-Sampling的思路,独立处理各个特征维度,实现了真正的基于特征的抽样。使用对各类分布模拟能力最强的高斯混合模型对小类中每个特征的权值分布建模,再依据该模型抽取新权值以进一步组合为新样本加入小类训练集。该方法完全基于特征抽样,能够有效地避免过学习现象。同时,由于对特征的建模及抽样过程严格遵守特征原始分布,构造的新样本质量高。实验结果表明,该方法效果良好,并显著好于SMOTE算法。
文本分类 非均衡 Over-Sampling 抽样技术 高斯混合模型 SMOTE算法
张爱华 王斌 徐燕
中国科学院计算技术研究所,北京,100190 北京语言大学,北京,100083
国内会议
黑龙江镜泊湖
中文
602-609
2010-08-12(万方平台首次上网日期,不代表论文的发表时间)