一种自动搜索阈值的中文文本层次聚类方法

摘要：

文本聚类是分析和处理网络文本的重要手段,文本层次聚类是目前最常用的方法之一。本文通过研究和分析传统的文本层次聚类方法的不足,提出了一种改进的基于阈值自动搜索的方法。该方法利用簇集的相似性分布和最小二乘曲线拟合方法自动发现层次聚类中每次迭代的阈值,同时用固定的两次迭代取代原来的不定次数的多次迭代,避免了由用户来设置聚类参数,提高了聚类的自动性。通过实验结果表明,该方法在聚类准确性上比传统的方法有所提高,而且该方法在孤立点容忍和防止错误扩散方面也有一定的进步。

关键词：文本聚类自动搜索阈值相似性分布层次聚类法网络文本

作者: 向继荆继武高能

作者单位: 信息安全国家重点实验室(中国科学院研究生院),北京 100049

会议类型: 国内会议

会议名称: 2007年全国网络与信息安全技术研讨会

会议地点: 青岛

会议语种:中文

页码: 325-331

在线出版日期: 2007-07-18（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种自动搜索阈值的中文文本层次聚类方法