一种基于URL枚举的网络实体爬取方法研究

摘要：

如今互联网上的信息呈爆炸式增长,如何从海量的网页中爬取大量网络实体成为一个重要的研究课题.而现有的网络实体爬取策略存在不少的缺点.基于枚举的网络实体爬取策略具有许多优点,但其使用范围狭窄.在上述策略的基础上,通过研究网络实体的URL的规律来对其进行推广.首先引入URL模板的概念,然后提出并形式化定义了URL模板的构建方法,其中包括采样、聚类、URL模板生成等步骤,再经过严格的推导获得了URL模板构建的算法.在新浪微地点和百度文库上的实验显示,推广的基于枚举的网络实体爬取方法具有较好的覆盖率和精确度,是一个实用且高效的爬取策略.

关键词：网络实体爬取策略网页地址模板

作者: 张俊骏肖仰华徐波汪卫

作者单位: 复旦大学计算机科学技术学院上海201203

会议类型: 国内会议

会议名称: 第31届中国数据库学术会议

会议地点: 太原

会议语种:中文

页码: 187-195

在线出版日期: 2014-09-19（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种基于URL枚举的网络实体爬取方法研究