会议专题

将HNC领域引入文本分类的尝试与探讨

在本文中,我们尝试将HNC领域作为文本特征,结合现有的分类技术,探索一条文本分类的新方法。本文对这一方法作了详细说明,并给出了试验数据及数据分析。通过试验,我们发现,单纯基于领域特征分类方法在分类精度上不如基于词特征的方法,基于词和领域的混合特征则在效果上略有提高;在分类速度和特征压缩比方面,基于领域特征的算法远远高于其他算法。

中文信息处理 HNC理论 文本分类 向量空间模型 领域特征算法

邬郑 吕晓莉 晋耀红

北京大正语言知识处理研究院 北京 100081 北京大正语言知识处理研究院 北京 100081;中国科学院声学研究所 北京 100080

国内会议

第三届HNC与语言学研究学术研讨会

北京

中文

481-488

2005-12-21(万方平台首次上网日期,不代表论文的发表时间)