会议专题

基于无监督聚类的PU文本分类方法

以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键.提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)——CBRN,并对已有的PU文本分类算法进行了改进,并提出了SPY-SVM算法。实验表明,该方法比目前其他的面向PU的文本分类方法具有更高的准确率和召回率。

无监督聚类 PU 支持向量机 文本分类 未标识实例集 训练分类器 机器学习 训练样本获取

张长利 左万利 彭涛 赫枫龄 彭钊 邵慧勇

吉林大学计算机科学与技术学院 长春 130012 沈阳炮兵学院 沈阳 110162 吉林大学计算机科学与技术学院 长春 130012 中国石油吉林油田分公司 松原 138000

国内会议

第二十五届中国数据库学术会议(NDBC2008)

桂林

中文

435-440

2008-10-24(万方平台首次上网日期,不代表论文的发表时间)