会议专题

LiPU:一种基于KL距离的主动分类算法

在实际应用中,由于各种原因,时常无法直接获得反例,导致传统分类方法的暂时失灵,所以,基于正例和未标识集的主动分类问题顿时成为了理论界的焦点。为了解决这一难题,理论界相继提出了许多不同的解决方案,然而,这些方法不能有效处理非平衡问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时。因此,本文提出了一种基于KL距离的主动分类算法-LiPU;依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来找出所有反例。与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性。

KL距离 主动分类算法 非平衡 隐匿反例 增强型分类器 数据库

许震 沙朝锋 王晓玲 周傲英

复旦大学计算机科学技术学院 上海 200433 华东师范大学海量计算研究所 上海 200062 上海市智能信息处理重点实验室 上海 200433

国内会议

NDBC2009第26届中国数据库学术会议

南昌

中文

88-95

2009-10-15(万方平台首次上网日期,不代表论文的发表时间)