会议专题

一种自动搜索阈值的中文文本层次聚类方法

文本聚类是分析和处理网络文本的重要手段,文本层次聚类是目前最常用的方法之一。本文通过研究和分析传统的文本层次聚类方法的不足,提出了一种改进的基于阈值自动搜索的方法。该方法利用簇集的相似性分布和最小二乘曲线拟合方法自动发现层次聚类中每次迭代的阈值,同时用固定的两次迭代取代原来的不定次数的多次迭代,避免了由用户来设置聚类参数,提高了聚类的自动性。通过实验结果表明,该方法在聚类准确性上比传统的方法有所提高,而且该方法在孤立点容忍和防止错误扩散方面也有一定的进步。

文本聚类 自动搜索阈值 相似性分布 层次聚类法 网络文本

向继 荆继武 高能

信息安全国家重点实验室(中国科学院研究生院),北京 100049

国内会议

2007年全国网络与信息安全技术研讨会

青岛

中文

325-331

2007-07-18(万方平台首次上网日期,不代表论文的发表时间)