会议专题

基于多模糊支持向量机的文本分类学习算法研究

反馈学习和增量学习能够将文本分类的训练过程拓展成一个可以循环更新的系统,不断改善分类效果,不会受制于训练样本集的数量和质量。本文以模糊支持向量机为基础,结合基于固定划分和过间隔技术,设计了一种使用多个模糊支持向量机进行增量学习的文本分类系统。分类系统是基于语义概念特征的,以知网为基础,对其进行了整理加权。同时,该系统具有反馈功能,利用支持向量来评价文本的特征,能够根据测试结果评估训练样本和测试样本的质量,优化、扩充训练集,提高文本分类系统的性能。实验表明,该系统对改善文本分类系统的分类效果和鲁棒性有较好的帮助。

文本分类 模糊支持向量机 增量学习 反馈学习 样本质量

蔡慧颖 江铭虎

清华大学中文系计算语言实验室 北京 100084

国内会议

第三届HNC与语言学研究学术研讨会

北京

中文

489-494

2005-12-21(万方平台首次上网日期,不代表论文的发表时间)