kNN文本分类器中决策规则的改进
kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用.但是这种方法的一个明显缺点是当样本分布密度相对不均匀时,只按照前k个近邻顺序而不考虑它们的距离差别会造成误判,影响分类器的性能.针对这个问题,采用模糊分类的思想,通过分析相似度、距离、隶属度函数之间的关系,构造了基于文档相似度的隶属度函数来克服这一缺陷.在文本分类实验中,改进的模糊kNN方法与经典kNN方法和目前广泛使用的基于相似度加权的kNN方法进行实验比较.实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,提高了分类器的性能。
文本分类 模糊kNN 隶属度函数 文档相似度 距离测度 非参数分类
林永民 朱卫东 尚文倩
北京交通大学计算机与信息技术学院,北京,100044
国内会议
北京
中文
378-382
2005-09-23(万方平台首次上网日期,不代表论文的发表时间)