会议专题

基于Rocchio和KNN提出的新的文本分类技术

针对Rocchio算法分类效果不理想,限定于对可划分空间地分类,和KNN对K值的选取过于依赖这些缺陷,提出了一个通过为整个分类空间建立不止一个代表的方法,并且根据数据集的具体数据分布,为整个分类空间建立不同个数的分类代表.有效解决了Rocchio线性地划分实例空间的造成数据划分不合理的问题,由构造的代表和每个类泛化的实例创建的分类模型有效提高了分类效率,而且解决了分类准确度依赖人工给定K值的问题,提高了分类的准确度.通过在20-newsgroup和Reuters-21578两个数据集上的实验,实验结果显示新的算法远优于Rocchio和KNN分类算法,与选择的基准比较算法SVM相比效果略优.

文本分类 Rocchio算法 数据分布 准确度

邱定 张激 王金华 王盼盼 游飞

中国电子科技集团公司第三十二研究所 上海,200233

国内会议

2017年西南三省一市(贵州、重庆、四川、云南)自动化与仪器仪表学术年会

重庆

中文

107-110

2017-10-01(万方平台首次上网日期,不代表论文的发表时间)