基于WEKA的中文文本聚类研究
利用WEKA平台对中文文本进行了聚类实验研究。作为国外一款优秀的开源数据挖掘软件,在国内用来做中文信息处理研究的却很少。通过调整WEKA 中特征选择参数,利用 K-means 算法对中文文本聚类实验。并采用召回率、准确率和F值对实验结果进行评价分 析,希望能为相关研究提供一个参考基准。
WEKA平台 文本聚类 文本特征 中文文本
韩普 刘艳云
南京大学信息管理系 南京 210093 解放军理工大学指挥自动化学院 南京 210007
国内会议
2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨会
银川
中文
1-9
2011-05-23(万方平台首次上网日期,不代表论文的发表时间)