会议专题

一种基于信息熵的文本特征加权算法

本文介绍了一种基于信息熵的文本特征加权算法—TF/IDF (MaxEnt)算法,用以提高文本分类器的分类性能.该算法将信息熵的概念引入到传统的文本特征加权算法—TF/IDF算法中,避免了传统的TF/IDF算法忽略特征项在类内和类间分布情况的问题.本文详细分析了TF/IDF (MaxEnt)算法,并在两类典型的文本数据集上与传统的TF/IDF算法进行了对比和分析.实验结果表明:TF/IDF (MaxEnt)算法在文本分类精度方面优于传统的TF/IDF算法.

数据挖掘 文本特征 加权算法 信息熵

封超 姬波 叶阳东

郑州大学信息工程学院,河南 郑州,450052

国内会议

河南省计算机学会2011年学术年会

河南信阳

中文

52-56

2011-08-20(万方平台首次上网日期,不代表论文的发表时间)