基于加权修正的KNN文本分类算法

摘要：

随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.KNN方法作为一种简单、有效、非参数的分类方法。本文分析了KNN算法在文本分类中存在的不足——分布密度和训练样本数对KNN分类效果的影响,并针时这些不足,对KNN算法进行了改进.改进后的方法使训练样本的分布密度趋于均匀,降低了样本数的不均对分类效果的影响,提高了文本分类的准确率。实验结果显示,这种改进后的方法具有很好的性能.

关键词：文本分类加权修正 KNN算法分布密度训练样本数迭代

作者: 沈志斌白清源

作者单位: 福州大学数学与计算机科学学院福州 350002

会议类型: 国内会议

会议名称: 第二十五届中国数据库学术会议(NDBC2008)

会议地点: 桂林

会议语种:中文

页码: 123-126,147

在线出版日期: 2008-10-24（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于加权修正的KNN文本分类算法