会议专题

中图分类法体系下的自动分类研究

本文研究的目的是对学术文献进行自动分类.其分类体系为中国图书馆图书分类法(以下简称中图分类法).中图分类法下分类号数量共计近5万类,如此多的类别,使本文的研究又不同于一般的文本分类,主要难点在于:类别众多,且类别交叉大,区分难度大.本文的目的是自动赋予一篇文献中图分类号.首先我们利用CNKI海量的已经经过人工标注的期刊语料,对近200万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号,并训练获得每一个短语的相应权重.然后在此基础上,计算新文献的中图分类号,并引入了置信度概念,实现了分离出高准确率结果集.在测试实验中,我们发现该方法能够获得比较理想的结果.

自动分类 特征短语词典 中图分类法 短语词汇

孙雄勇 罗霄

同方知网(北京)技术有限公司,北京,100084

国内会议

第四届全国信息检索与内容安全学术会议

北京

中文

604-609

2008-11-15(万方平台首次上网日期,不代表论文的发表时间)