基于无监督聚类的PU文本分类方法
以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键.提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)——CBRN,并对已有的PU文本分类算法进行了改进,并提出了SPY-SVM算法。实验表明,该方法比目前其他的面向PU的文本分类方法具有更高的准确率和召回率。
无监督聚类 PU 支持向量机 文本分类 未标识实例集 训练分类器 机器学习 训练样本获取
张长利 左万利 彭涛 赫枫龄 彭钊 邵慧勇
吉林大学计算机科学与技术学院 长春 130012 沈阳炮兵学院 沈阳 110162 吉林大学计算机科学与技术学院 长春 130012 中国石油吉林油田分公司 松原 138000
国内会议
桂林
中文
435-440
2008-10-24(万方平台首次上网日期,不代表论文的发表时间)