中文文本分类中一种简单高效的特征词选择方法

摘要：

随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征词选择方法.根据特征词在训练集中不同类别中的分布信息,自动构建一个文本分类停用词表,去除了对分类任务作用很小的特征词.并利用上述特征词选择方法,使用决策树模型和最大熵模型进行了中文文本分类实验.实验结果显示,两种算法在进行特征选择后准确率均有提高。

关键词：特征词选择中文文本分类最大熵模型决策树

作者: 谷波刘开瑛

作者单位: 山西大学计算机与信息技术学院,太原,030006

会议类型: 国内会议

会议名称: 2005第一届中国分类技术与应用研讨会(CSCA)

会议地点: 北京

会议语种:中文

页码: 356-360

在线出版日期: 2005-09-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题

中文文本分类中一种简单高效的特征词选择方法