面向搜索引擎查询日志的凝聚式聚类算法的改进
随着互联网的迅猛发展,信息爆炸式增长,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。本文分析了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及两种在其基础上的改进算法,然后分别指出了三个算法中的错误和产生错误的原因。最后,我们给出了本文的改进算法,并通过模拟实验对几种不同的算法进行了对比。
互联网络 信息查询 数据挖掘 搜索引擎 凝聚式聚类
沈炜 蒙祖强
广西大学计算机与电子信息学院 广西南宁 530004 广西大学计算机与电子信息学院 广西南宁 530004 中国科学院计算技术研究所智能信息处理重点实验室 北京 100080
国内会议
哈尔滨
中文
221-227
2007-11-20(万方平台首次上网日期,不代表论文的发表时间)