会议专题

基于层次特征词权重的文本分类方法

针对特定领域文本特点,提出了一种基于层次特征词权重的文本分类方法.该方法首先通过对特定领域内的语料统计,构建一个具有层次结构的专业概念树图,领域词汇被分类到不同的层次节点上,具有不同的权重,然后根据这些领域词汇在真实文本中出现的情况计算文本类别权重实现分类.分类对比实验结果说明,提出的方法优于KNN方法,在特定领域内具有很好的分类效果。

文本分类 领域文本 层次特征向量 KNN 层次特征词权重 专业概念树图

耿增民 贾云得 刘万春 朱玉文

北京理工大学信息科学技术学院计算机科学与工程系,北京,100081

国内会议

2005第一届中国分类技术与应用研讨会(CSCA)

北京

中文

383-387

2005-09-23(万方平台首次上网日期,不代表论文的发表时间)