基于改进LSA的文档聚类算法
提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.
文档聚类 潜在语义分析 奇异值分解 特征提取 向量空间模型
俞辉
中国石油大学,计算机与通信工程学院,山东,东营,257061
国内会议
徐州
中文
963-966
2009-05-01(万方平台首次上网日期,不代表论文的发表时间)