一种基于信息熵的文本特征加权算法
本文介绍了一种基于信息熵的文本特征加权算法—TF/IDF (MaxEnt)算法,用以提高文本分类器的分类性能.该算法将信息熵的概念引入到传统的文本特征加权算法—TF/IDF算法中,避免了传统的TF/IDF算法忽略特征项在类内和类间分布情况的问题.本文详细分析了TF/IDF (MaxEnt)算法,并在两类典型的文本数据集上与传统的TF/IDF算法进行了对比和分析.实验结果表明:TF/IDF (MaxEnt)算法在文本分类精度方面优于传统的TF/IDF算法.
数据挖掘 文本特征 加权算法 信息熵
封超 姬波 叶阳东
郑州大学信息工程学院,河南 郑州,450052
国内会议
河南信阳
中文
52-56
2011-08-20(万方平台首次上网日期,不代表论文的发表时间)