基于WEKA的中文文本聚类研究

摘要：

利用WEKA平台对中文文本进行了聚类实验研究。作为国外一款优秀的开源数据挖掘软件，在国内用来做中文信息处理研究的却很少。通过调整WEKA 中特征选择参数，利用 K-means 算法对中文文本聚类实验。并采用召回率、准确率和F值对实验结果进行评价分析，希望能为相关研究提供一个参考基准。

关键词： WEKA平台文本聚类文本特征中文文本

作者: 韩普刘艳云

作者单位: 南京大学信息管理系南京 210093 解放军理工大学指挥自动化学院南京 210007

会议类型: 国内会议

会议地点: 银川

会议语种:中文

页码: 1-9

在线出版日期: 2011-05-23（万方平台首次上网日期，不代表论文的发表时间）

会议专题