会议专题

基于词共现概念的文本分类研究

传统的文本分类的特征选择都是以词为单位,根据计算特征词的权重建立向量空间模型,进而表示所有文档.但这种向量空间模型中的每个词之间是相互独立的,词和词之间的语义关系没有体现出来。本文基于数据挖掘里的关联规则理论,提出一种将词共现概念和传统VSM一起作为文档新特征的方法,并应用在文本分类中。实验表明,该方法不仅比单纯的基于关键词传统VSM更能代表文档的语义和内容,而且还具有较好的分类结果。

文本分类 向量空间模型 关联规则 词共现概念 数据挖掘

倪茂树 林鸿飞

大连理工大学计算机科学与工程系,大连,116024

国内会议

第七届中文信息处理国际会议

武汉

中文

443-447

2007-10-13(万方平台首次上网日期,不代表论文的发表时间)