基于Boosting方法的中文文档层次分类
文档分类是管理大规模文档信息的一种有效方法,但已有中文文档分类系统大都忽略了文档类的层次结构。该文基于Boosting方法,研究了中文文档的层次分类问题。为了使分类过程摆脱对词典和切词处理的依赖,该文利用N-gram信息进行中文文档分类,实现中文文档分类的领域无关性和时间无关性。
文档分类 层次结构 N-gram信息
周水庚 胡运发 汪保友
复旦大学计算机科学系(上海)
国内会议
南京
中文
265~270
2000-11-01(万方平台首次上网日期,不代表论文的发表时间)