会议专题

改进的OPTICS算法及其在文本聚类中的应用

基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。

OPTlCS算法 密度聚类 文本挖掘 文本聚类

曾依灵 许洪波 白硕

中国科学院计算技术研究所智能安全中心,北京 100080;中国科学院研究生院,北京 100080 中国科学院计算技术研究所智能安全中心,北京 100080

国内会议

第三届全国信息检索与内容安全学术会议

苏州

中文

190-196

2007-11-01(万方平台首次上网日期,不代表论文的发表时间)