会议专题

中文文本分类器的设计与实现

为了能在海量的文本中及时准确地获取有效的知识和信息,本文对多类别分类方法进行了研究,设计并实现了一个中文文本分类器.该分类器主要包括预处理模块、特征处理模块、文本表示模块和分类器模块.重点研究了特征提取部分和文本表示部分.分类器包括训练过程和测试过程.在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近千篇文本进行训练,为了测试分类器的性能,选用了不同类别的上百篇文本进行测试,实验结果表明该分类器的分类准确率在90%左右,分类效果较为理想.

中文文本 分类器 特征处理 文本表示

许婷婷 赵永斌

石家庄铁道大学信息科学与技术学院,河北石家庄市050043

国内会议

SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)

石家庄

中文

281-289

2014-06-30(万方平台首次上网日期,不代表论文的发表时间)