一种基于支持向量机的多国语言文本分类平台
针对大批量文本的分类处理要求快速、高准确率的情况,本文提出了一种预处理文本信息方法,然后利用LIBSVM软件环境实现文本自动分类的平台。同时预处理阶段搭配不同语言的字典,实现多国语言文本的分类功能。该方法将文本转换为软件平台能读取的数据进行处理,方法简单快捷。同时通过选择合适的核函数和进行交叉验证等方法寻求最优参数,避免出现欠学习、过学习问题。最后通过使用关键词字典以及示例标准文本库进行分类操作,验证了平台分类的效率。
多国语言 支持向量机 文本分类 信息处理
卢卫雄
北方工业大学,北京,100144
国内会议
杭州
中文
70-73
2011-08-01(万方平台首次上网日期,不代表论文的发表时间)