会议专题

分词结果的再搭配对文本分类效果的增强

本文基于互信息理论,提出一种对中文文本分词后的初分词结果再次组合搭配,得到一个新的较小待选特征词集,用于后续特征选择及文本分类处理的方法.试验证明,采用这种方法,可以降低待选文本特征词空间维度,并消除部分较长词汇被错误切分、单字特征词包含信息不足的现象,与已有试验结果相比较,在中文文本分类结果上有明显的改进.

中文分词 互信息 文本分类 词语搭配 特征选择

侯松 周斌 贾焰

国防科学技术大学计算机学院 湖南长沙 410073

国内会议

第24次全国计算机安全学术交流会

云南丽江

中文

341-345

2009-09-04(万方平台首次上网日期,不代表论文的发表时间)