基于核方法的潜在语义文本分类模型
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型.该模型比LSC模型能更好地表示文档空间的潜在语义结构信息.在Reuter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。
文本分类 核方法 潜在语义索引模型 偏最小二乘 核偏最小二乘 信息检索
罗远胜 王明文 曾雪强
江西师范大学,计算机信息工程学院,南昌,330027
国内会议
北京
中文
1853-1856
2005-09-26(万方平台首次上网日期,不代表论文的发表时间)