会议专题

不均衡数据集上文本分类的特征选择研究

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进。

不均衡数据集 特征选择 文本自动分类 信息检索 数据挖掘

徐燕 李锦涛 王斌 孙春明 张森

中国科学院计算技术研究所,北京,100080;华北电力大学,北京,102206 中国科学院计算技术研究所,北京,100080 中国科学院计算技术研究所,北京,100080华北电力大学,北京,102206

国内会议

第二届中国分类技术及应用学术会议

郑州

中文

58-62

2007-05-27(万方平台首次上网日期,不代表论文的发表时间)