基于SVM主动学习技术的PU文本分类
以正例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出了一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决了某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其他的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。
支持向量机 主动学习 PU文本分类 机器学习
张长利 左万利 彭涛 赫枫龄
吉林大学计算机科学与技术学院,吉林长春,130012 沈阳炮兵学院,辽宁沈阳,110162 吉林大学计算机科学与技术学院,吉林长春,130012
国内会议
苏州
中文
754-762
2007-10-18(万方平台首次上网日期,不代表论文的发表时间)