会议专题

基于离散核支持向量机的文本自动分类

传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离散核方法与多项式核、高斯核方法进行比较,实验结果表明该文所提方法在简化分类方法的同时也可以提高分类的精度。

信息处理 支持向量机 离散核 文本自动分类 向量空间模型

傅鹏 张德运

西安交通大学,电子与信息工程学院,西安,710049

国内会议

第三届全国搜索引擎和网上信息挖掘学术研讨会

北京

中文

1778-1782

2005-09-26(万方平台首次上网日期,不代表论文的发表时间)