一种新的特征词权值计算模型及其在文本分类中的应用
传统的特征词权值计算模型-TF*IDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的基本事实.针对这种情况,提出基于类区分度的特征词权值计算模型-TF*CD.基于这种模型,在文档特征向量计算、相似度计算等方面对传统k-NN算法作必要修改的基础上,提出CDB-KNN算法.实验表明与基于TF*IDF的k-NN相比,CDB-KNN具备更好的分类效果.这表明在文本分类中,TF*CD比目前最常用的TF*IDF更适合计算特征词权值.
类区分度 文本分类 CDB-KNN 特征词权值计算 信息检索
邓志鸿 唐世渭 谢昆青 杨冬青 张铭
北京大学信息科学技术学院视觉与听觉处理国家重点实验室;北京大学信息科学技术学院计算机科学技术系
国内会议
北京
中文
723-728
2003-11-01(万方平台首次上网日期,不代表论文的发表时间)