会议专题

基于Bootstrapping的文本分类模型

本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能.文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重.实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70.56﹪,比传统模型高出4.70﹪.同时,使用大约一半或者更少规模的标注训练语料作为种子集,就可以达到传统的分类模型的相当结果.该模型通过使用适当的权重因子可以更好改善分类器的训练效果.

文本分类 最大熵模型 权重因子 自然语言处理

陈文亮 朱慕华 朱靖波 姚天顺

东北大学自然语言处理实验室(沈阳)

国内会议

第一届全国信息检索与内容安全学术会议

上海

中文

196-203

2004-11-01(万方平台首次上网日期,不代表论文的发表时间)