会议专题

基于优化样本分布抽样集成学习的半监督文本分类方法研究

针对现有文本分类方法在即时性文本信息上的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,本文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取出适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.

文本分类 半监督学习 集成学习 样本抽样策略

徐禹洪 黄沛杰

华南农业大学数学与信息学院,广东 广州 510642;华南理工大学计算机科学与工程学院,广东 广州 510006 华南农业大学数学与信息学院,广东 广州 510642

国内会议

第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会

南京

中文

1-12

2017-10-13(万方平台首次上网日期,不代表论文的发表时间)