会议专题

中文文本分类中一种简单高效的特征词选择方法

随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征词选择方法.根据特征词在训练集中不同类别中的分布信息,自动构建一个文本分类停用词表,去除了对分类任务作用很小的特征词.并利用上述特征词选择方法,使用决策树模型和最大熵模型进行了中文文本分类实验.实验结果显示,两种算法在进行特征选择后准确率均有提高。

特征词选择 中文文本分类 最大熵模型 决策树

谷波 刘开瑛

山西大学计算机与信息技术学院,太原,030006

国内会议

2005第一届中国分类技术与应用研讨会(CSCA)

北京

中文

356-360

2005-09-23(万方平台首次上网日期,不代表论文的发表时间)