分词结果的再搭配对文本分类效果的增强
本文基于互信息理论,提出一种对中文文本分词后的初分词结果再次组合搭配,得到一个新的较小待选特征词集,用于后续特征选择及文本分类处理的方法.试验证明,采用这种方法,可以降低待选文本特征词空间维度,并消除部分较长词汇被错误切分、单字特征词包含信息不足的现象,与已有试验结果相比较,在中文文本分类结果上有明显的改进.
中文分词 互信息 文本分类 词语搭配 特征选择
侯松 周斌 贾焰
国防科学技术大学计算机学院 湖南长沙 410073
国内会议
云南丽江
中文
341-345
2009-09-04(万方平台首次上网日期,不代表论文的发表时间)