对数字化科技论文的自动分类研究
针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.
科技论文 文本分类 层次结构 分类精度 分类效率
李森 马军 赵嫣 雷景生
山东大学,计算机科学与技术学院,山东,济南,250061 山东大学,计算机科学与技术学院,山东,济南,250061;海南大学,计算机学院,海南,海口,570228
国内会议
第四届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2006)
济南
中文
81-84
2006-07-21(万方平台首次上网日期,不代表论文的发表时间)