WCM:一种基于单词相关度的文档聚类新方法
本文提出了一种基于单词相关度的聚类方法WCM(Document Clustering Method Based onWord Relation)。总体的思想首先充分利用单词之间的相关度分类夹确定词的分类,然后计算每个文档向量和各个类之间的距离将其归入一个或者多个类别中。该算法在“网上科研服务原型系统”项目中加以实现。在该系统中本文实现了一个基于SDARTS协议的元搜索器,搜索器退回的结果使用WCM进行分类显示,大大方便了使用者的查询。本文第2节简单介绍相关的研究,第3节介绍单词相关度模型,第4节介绍基于单词相关度的聚类WCM,第5节介绍文档分类,第6节为实验情况简介,最后是总结和展望。
单词相关度 文档分类 聚类分析 搜索引擎
伍赛 杨冬青 韩近强 张铭 王文清 冯英
北京大学信息与科学技术学院,北京,100871 北京大学图书馆中国高等教育文献保障系统管理中心,北京,100871
国内会议
厦门
中文
261-264
2004-10-14(万方平台首次上网日期,不代表论文的发表时间)