基于R-Grams的文本聚类方法

摘要：

针对传统文本聚类中存在着聚类准确率和召回率难以平衡等问题,提出了一种基于R-Grams文本相似度计算方法的文本聚类方法.该方法首先通过将待聚类文档降序排列,其次采用R-Grams文本相似度算法计算文本之间的相似度并根据相似度实现各聚类标志文档的确定并完成初始聚类,最后通过对初始聚类结果进行聚类合并完成最终聚类.实验结果表明:聚类结果可以通过聚类阈值灵活调整以适应不同的需求,最佳聚类阈值为15左右.随着聚类阈值的增大,各聚类准确率增大,召回率呈现先增后降的趋势.此外,该聚类方法避免了大量的分词、特征提取等繁琐处理,实现简单.

关键词：中文文档文本聚类特征提取聚类阈聚类准确率文本相似度计算方法

作者: 王贤明谷琼胡智文

作者单位: 温州大学瓯江学院,浙江温州325035;温州信息化研究中心,浙江温州325035 湖北文理学院数学与计算机科学学院,湖北襄阳441053;西南大学逻辑与智能研究中心,重庆400715 浙江传媒学院新媒体学院,杭州310018

会议类型: 国内会议

会议名称: 2015年全国开放式分布与并行计算学术年会

会议地点: 兰州

会议语种:中文

页码: 3130-3134

在线出版日期: 2015-08-10（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于R-Grams的文本聚类方法