一种基于EP的中文文本自动分类算法
文本自动分类具有广泛的实际应用.引进一种新的基于类内文档频率特征提取方法,并与基于EP的分类方法相结合,提出一种基于EP的中文文本自动分类算法TCEP.通过有效提取那些具有很好区分性能的词作为特征项,TCEP算法不仅大大降低了特征空间的维数,而且取得了更好的分类效果.在北京大学计算机网络与分布式系统实验室提供的数据集上的实验表明,TCEP算法的分类性能足以与基于SVM,kNN和NB的中文文本分类算法相媲美。
中文文本自动分类 特征提取 文档频率 EP TCEP算法
许红涛 范明 昝红英
郑州大学信息工程学院,郑州,450052
国内会议
北京
中文
351-355
2005-09-23(万方平台首次上网日期,不代表论文的发表时间)