基于改进TFIDF的文本特征选择算法
在中文文本自动分类系统中,文档通常采用向量窄问模型(VSM)表示,所有文档属件构成一个高维度的属性空间,而在文本分类中高维度的特征空间是一个难以解决的问题。TFIDF是文档特征权值表示常用方法,该方法简单易行,但传统的TFIDF没有考虑特征词项在各个类之间分布的不均衡性,本文对TFIDF特征选择算法进行了深入的分析,并基于基尼指数原理提出了一种新的TFIDF特征选择算法,实验结果表明,改进后的算法可以有效地提高文本分类的精确度。
文本分类 特征选择 TFIDF 基尼指数
杨成成 贺兴时
西安工程大学,西安 710048
国内会议
北京
中文
416-419
2008-10-22(万方平台首次上网日期,不代表论文的发表时间)