基于粗糙集和分布密度理论的KNN分类样本选取方法
KNN算法对错误标识的训练样本和那些处在各类样本边界处的新文本的分类比较敏感,往往会导致难以得到理想的分类效果。所以说训练样本集选取的好坏是KNN算法进行文本分类的关键。为此,本文提出一种基于粗糙集和分布密度理论相结合的KNN分类样本选择方法,先利用粗糙集理论的下近似集从训练文本中选取出典型的文本类别样本,同时消除那些被错误标识的样本,然后再用基于密度的KNN分类训练样本选取方法,使训练样本分布尽量均匀,从而保证了KNN分类器的准确率。实验结果表明,该分类样本选取方法能改进KNN文本分类系统的性能。
KNN算法 粗糙集 样本选取 文本分类 分布密度
刘毅 杨燕
西南交通大学信息科学与技术学院 四川 成都 610031
国内会议
2006年全国信息、电子与控制技术学术会议(IECT”2006)
成都
中文
128-131
2006-09-28(万方平台首次上网日期,不代表论文的发表时间)