会议专题

一种基于频繁词集的文本分类算法

  提出了一种基于频繁词集的文本分类算法,对频繁词集的选取引入了一个新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。文本的特征空间由频繁词集和原始单词组成,通过测试不同数量的单词特征和频繁词集特征的组合,检验了混合特征空间的最优组合方案。在Reuters-21578和WebKB数据集上,训练SVM进行文本分类,并分析了特征组合策略和相似度权重计算的效果。结果表明,我们的特征组合策略和权重计算方法可以有效提高SVM的文本分类效果。

文本分类 文本表示 频繁词集 SVM

袁满 欧阳元新 熊璋

北京航空航天大学计算机学院 北京市海淀区学院路37号 100191

国内会议

2012年第三届中国计算机学会服务计算学术会议

西安

中文

1-12

2012-08-16(万方平台首次上网日期,不代表论文的发表时间)