一种新的基于kNN和Rocchio的文本分类方法
本文首先对kNN和Rocchio的算法进行深入的研究和比较,然后提出了一种新的基于kNN和Rocchio的文本分类方法,命名为Rocchio-kNN方法,这种分类方法先用Rocchio为测试文档产生候选类别,然后再用kNN从候选类别中为测试文档选择出最终类别;这种方法既有kNN分类效果好的特点,又有接近Rocchio的分类效率,还研究了用两种不同的方法来决定候选类别的数目,在中文文档库上的实验表明,新的文本分类方法的效果比单独的kNN和Rocchio的效果都要好,同时分类效率要比kNN好并且接近Rocchio。
文本分类 Rocchio kNN Rocchio-kNN 电子文档
张政 周水庚 周傲英
复旦大学计算机科学与工程系,上海,200433
国内会议
厦门
中文
483-487
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)