一种新的特征词权值计算模型及其在文本分类中的应用

摘要：

传统的特征词权值计算模型-TF*IDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的基本事实.针对这种情况,提出基于类区分度的特征词权值计算模型-TF*CD.基于这种模型,在文档特征向量计算、相似度计算等方面对传统k-NN算法作必要修改的基础上,提出CDB-KNN算法.实验表明与基于TF*IDF的k-NN相比,CDB-KNN具备更好的分类效果.这表明在文本分类中,TF*CD比目前最常用的TF*IDF更适合计算特征词权值.

关键词：类区分度文本分类 CDB-KNN 特征词权值计算信息检索

作者: 邓志鸿唐世渭谢昆青杨冬青张铭

作者单位: 北京大学信息科学技术学院视觉与听觉处理国家重点实验室;北京大学信息科学技术学院计算机科学技术系

会议类型: 国内会议

会议名称: 2003中国计算机大会

会议地点: 北京

会议语种:中文

页码: 723-728

在线出版日期: 2003-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种新的特征词权值计算模型及其在文本分类中的应用