会议专题

基于语句-词条矩阵的聚簇式动态增长聚类算法

Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤:预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性。

文档聚类 反向词频 语句词条矩阵 文档矩阵集合 搜索引擎 文本摘取

孙辉 陈晓云 马志新

兰州大学,信息科学与工程学院,兰州,730000

国内会议

第三届全国搜索引擎和网上信息挖掘学术研讨会

北京

中文

1814-1817

2005-09-26(万方平台首次上网日期,不代表论文的发表时间)