基于网络拓扑的聚焦爬虫研究
聚焦爬虫面向主题,过滤无关链接,只抓取相关的网页信息。通用的聚焦爬虫,无法处理冗余链接,因此本文提出了一种基于网络拓扑的聚焦爬虫。从搜索引擎获取初始网页集,使用向量空间模型计算文本相似性。对抽取出的URL先进行链接分析,再根据无标度网络特征,修正UfuL的权值。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。仿真结果表明基于网络拓扑的爬虫比通用爬虫具有更高的查准率。
聚焦爬虫 链接分析 无标度网络 向量空间
熊菲 刘云 李勇
北京交通大学通信与信息系统北京市重点实验室,北京 100044
国内会议
北京
中文
176-181
2008-10-16(万方平台首次上网日期,不代表论文的发表时间)