一种基于频繁词集的文本分类算法
提出了一种基于频繁词集的文本分类算法,对频繁词集的选取引入了一个新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。文本的特征空间由频繁词集和原始单词组成,通过测试不同数量的单词特征和频繁词集特征的组合,检验了混合特征空间的最优组合方案。在Reuters-21578和WebKB数据集上,训练SVM进行文本分类,并分析了特征组合策略和相似度权重计算的效果。结果表明,我们的特征组合策略和权重计算方法可以有效提高SVM的文本分类效果。
文本分类 文本表示 频繁词集 SVM
袁满 欧阳元新 熊璋
北京航空航天大学计算机学院 北京市海淀区学院路37号 100191
国内会议
西安
中文
1-12
2012-08-16(万方平台首次上网日期,不代表论文的发表时间)