一种改进K-means聚类算法在多文档文摘中的应用

摘要：

本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克服传统的K-means算法需要靠人的主观经验确定初始类别数和初始聚类中心这个缺点，并保留了传统K-means算法效率高的优点，实验证明应用该方法生成的文摘效果较好，系统效率较高。

关键词：多文档文摘自动文摘潜在子主题 K-means 聚类算法

作者: 肖华松何婷婷邵伟胡珀

作者单位: 华中师范大学计算机科学系武汉 430079;国家语言资源监测与研究中心网络媒体语言分中心武汉 430079

会议类型: 国内会议

会议名称: 第三届全国信息检索与内容安全学术会议

会议地点: 苏州

会议语种:中文

页码: 319-325

在线出版日期: 2007-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种改进K-means聚类算法在多文档文摘中的应用