将HNC领域引入文本分类的尝试与探讨
在本文中,我们尝试将HNC领域作为文本特征,结合现有的分类技术,探索一条文本分类的新方法。本文对这一方法作了详细说明,并给出了试验数据及数据分析。通过试验,我们发现,单纯基于领域特征分类方法在分类精度上不如基于词特征的方法,基于词和领域的混合特征则在效果上略有提高;在分类速度和特征压缩比方面,基于领域特征的算法远远高于其他算法。
中文信息处理 HNC理论 文本分类 向量空间模型 领域特征算法
邬郑 吕晓莉 晋耀红
北京大正语言知识处理研究院 北京 100081 北京大正语言知识处理研究院 北京 100081;中国科学院声学研究所 北京 100080
国内会议
北京
中文
481-488
2005-12-21(万方平台首次上网日期,不代表论文的发表时间)