基于类别层次结构的多层文本分类样本扩展策略
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面人手构造或扩展类别训练样本.在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能.参测系统在第一级类别和第二级类别上宏平均Fl分别为0.8413和0.7139,在10个参赛系统中位列第二.
多层文本 分类样本 扩展策略 类别层次结构
李保利
河南工业大学计算机科学系,郑州450001
国内会议
深圳
中文
357-366
2014-12-05(万方平台首次上网日期,不代表论文的发表时间)