面向搜索引擎查询日志的凝聚式聚类算法的改进

摘要：

随着互联网的迅猛发展,信息爆炸式增长,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。本文分析了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及两种在其基础上的改进算法,然后分别指出了三个算法中的错误和产生错误的原因。最后,我们给出了本文的改进算法,并通过模拟实验对几种不同的算法进行了对比。

关键词：互联网络信息查询数据挖掘搜索引擎凝聚式聚类

作者: 沈炜蒙祖强

作者单位: 广西大学计算机与电子信息学院广西南宁 530004 广西大学计算机与电子信息学院广西南宁 530004 中国科学院计算技术研究所智能信息处理重点实验室北京 100080

会议类型: 国内会议

会议名称: 中国人工智能学会第12届全国学术年会

会议地点: 哈尔滨

会议语种:中文

页码: 221-227

在线出版日期: 2007-11-20（万方平台首次上网日期，不代表论文的发表时间）

会议专题

面向搜索引擎查询日志的凝聚式聚类算法的改进