一种面向主题重叠情况的文本特征辅助选择模型
特征选择是文本分类系统的关键环节,本文针对不同类别主题重叠情况下提出了一个两阶段式的多词级别辅助特征选择模型。第一阶段分析文本获取多词索引项,第二阶段根据其统计分布情况计算相应权重进行筛选。模型实现思路直观,缓解了训练样本不足时的过优化现象,并可直接应用于增量学习模式。对比实验验证了该模型在主题重叠情况下,有效提高了文本分类准确率。
特征选择 向量空间模型 文本分类
孙强 李建华 李生红
上海交通大学电子工程系,上海,200240
国内会议
南京
中文
432-435
2009-05-30(万方平台首次上网日期,不代表论文的发表时间)