会议专题

基于错误预测的文本分类方法

本文提出一种基于潜在语义索引(LSI)和互信息(MI)相融合的文本分类模型。使用LSI进行特征表示和特征降维在提高分类的性能上有优异的表现,但LSI本身在处理速度和耗用空间上存在缺陷。本文先对文本使用向量空间模型(VSM)并利用MI方法进行特征提取,利用SVM的后验概率机制,对分类的结果进行错误预测。对错误可能性高的部分文本利用LSI进行第二次分类。算法融合MI和LSI的优点,降低了使用LSI造成的效率损失,提高分类精度和性能。

文本分类 潜在语义索引 错误预测 向量空间模型 后验概率机制 特征提取

陈毅恒 秦兵 刘挺 林建国 李生

哈尔滨工业大学信息检索研究室 哈尔滨 150001

国内会议

第九届全国计算语言学学术会议

大连

中文

618-623

2007-08-06(万方平台首次上网日期,不代表论文的发表时间)