基于类别重要度的MIMLBoost改进算法
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率.
多示例多标记 类别标记 重要度评估 精度控制
郝宁 夏士雄 牛强 赵志军
中国矿业大学计算机科学与技术学院,江苏徐州221116 舟山市定海区交通建设事务中心,浙江舟山316000
国内会议
兰州
中文
3122-3125
2015-08-10(万方平台首次上网日期,不代表论文的发表时间)