基于语义特征选取与改进k均值算法的文本聚类研究
针对传统的k-means算法存在容易陷入局部最优以及对初始聚类中心的高度依赖性等缺陷,提出了一种改进初始中心选取的新的k-means算法。由于词空间的文本聚类方法很难处理文本的高维特性和复杂语义性,因此通过采用语义特征选取的方法从高维特征空间中提取文本向量的主要成分,从而实现文本输入空间的降维和语义特征空间的抽取。实验结果表明:语义特征选取处理不仅可实现降维,大幅减少文本聚类的时间,而且能有效提高聚类系统的准确性。另外,改进的k-means算法对整个聚类的效果也有明显的改善。将两者结合之后,聚类效果更加显著。
文本聚类 语义特征选取 改进k均值算法 效果评估
HE Xiao-liang 何晓亮 SONG Wei 宋威 LIANG Jiu-zhen 梁久祯
School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China 江南大学物联网工程学院 无锡214122
国内会议
第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议
合肥
中文
66-70
2012-10-13(万方平台首次上网日期,不代表论文的发表时间)