面向化学领域网络资源的文本自动分类算法
为了提高化学主题搜索引擎的查询效果,采用距离加权k-近邻分类算法来进行自动分类.为了测试该算法对化学领域网络资源进行分类的效果,文中使用化学化工资源导航系统ChIN人工积累的资源和描述信息作为数据集,并采用基于化学领域的多层次分类体系进行分类.经测试,系统微平均值F<,micro>最高可达到71﹪.文中还就文档的关键词和数据集的熵对分类性能的影响进行了讨论.结果表明,该算法能较好地应用于化学领域网络资源的自动分类.
化学主题搜索引擎 文本自动分类 隐含语义检索
梁春燕 夏诏杰 郭力
中国科学院过程工程研究所(北京)
国内会议
第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004)
广州
中文
52-57
2004-11-12(万方平台首次上网日期,不代表论文的发表时间)