一种基于EP的中文文本自动分类算法

摘要：

文本自动分类具有广泛的实际应用.引进一种新的基于类内文档频率特征提取方法,并与基于EP的分类方法相结合,提出一种基于EP的中文文本自动分类算法TCEP.通过有效提取那些具有很好区分性能的词作为特征项,TCEP算法不仅大大降低了特征空间的维数,而且取得了更好的分类效果.在北京大学计算机网络与分布式系统实验室提供的数据集上的实验表明,TCEP算法的分类性能足以与基于SVM,kNN和NB的中文文本分类算法相媲美。

关键词：中文文本自动分类特征提取文档频率 EP TCEP算法

作者: 许红涛范明昝红英

作者单位: 郑州大学信息工程学院,郑州,450052

会议类型: 国内会议

会议名称: 2005第一届中国分类技术与应用研讨会(CSCA)

会议地点: 北京

会议语种:中文

页码: 351-355

在线出版日期: 2005-09-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于EP的中文文本自动分类算法