一种改进K-means聚类算法在多文档文摘中的应用
本文采用一种改进的K-means聚类算法自适应地发现多文档集合中的潜在子主题。该方法从整个文档集合的统计信息中获取必要的参数信息来确定初始类别数和初始聚类中心。它能克服传统的K-means算法需要靠人的主观经验确定初始类别数和初始聚类中心这个缺点,并保留了传统K-means算法效率高的优点,实验证明应用该方法生成的文摘效果较好,系统效率较高。
多文档文摘 自动文摘 潜在子主题 K-means 聚类算法
肖华松 何婷婷 邵伟 胡珀
华中师范大学计算机科学系 武汉 430079;国家语言资源监测与研究中心网络媒体语言分中心 武汉 430079
国内会议
苏州
中文
319-325
2007-11-01(万方平台首次上网日期,不代表论文的发表时间)