会议专题

中文文本聚类的研究与实现

在文本聚类中,聚类的最终结果应该是一棵树的形式.然而,随着互联网的普及,面对海量的电子文献,学科分枝的越来越细化,树的分枝粒度越来越小,逐层聚类必然会花费巨大的时间.本文讨论并提出了针对特定领域扁平聚类和分层聚类相结合的思想,并且对于文本预处理和具有较强实用性的ISODATA扁平算法给出了VC++的实现.

自然语言理解 向量空间模型 ISODATA 文本聚类 文本相似度计算

张宝艳 王庆辉

北京邮电大学信息工程学院智能研究中心(北京)

国内会议

第一届学生计算语言学研讨会

北京

中文

125-129

2002-08-01(万方平台首次上网日期,不代表论文的发表时间)