基于信息增益的多标签特征选择算法
多标签分类是数据挖掘领域的研究热点之一,并已在蛋白质功能分类、文本分类、语义场景分类等领域取得广泛应用。多标签分类是针对多标签数据的特点,获取相应的分类模型,并依此判断未知数据的类别的过程。多标签特征选择是一种提高多标签分类器性能的技术.针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,本文提出一种基于信息增益的多标签特征选择算法((inulti-label feature selection algorithm based on information gain, FSIG)。该算法能在特征选择过程中充分利用标签间的相关性并获得最优特征子集合。假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者关联程度,再根据阈值删除不相关的特征得到最优特征子集合.实验表明,该算法能有效地提高多标签分类器的分类性能.
数据挖掘 多标签分类 多标签特征选择算法 信息增益
李玲 刘华文 徐晓丹 赵建民
浙江师范大学数理与信息工程学院 浙江 金华 321004 浙江师范大学数理与信息工程学院 浙江 金华 321004;中科院数学与系统科学研究院 北京 100055
国内会议
济南
中文
1-4
2014-10-16(万方平台首次上网日期,不代表论文的发表时间)