会议专题

一种基于URL枚举的网络实体爬取方法研究

如今互联网上的信息呈爆炸式增长,如何从海量的网页中爬取大量网络实体成为一个重要的研究课题.而现有的网络实体爬取策略存在不少的缺点.基于枚举的网络实体爬取策略具有许多优点,但其使用范围狭窄.在上述策略的基础上,通过研究网络实体的URL的规律来对其进行推广.首先引入URL模板的概念,然后提出并形式化定义了URL模板的构建方法,其中包括采样、聚类、URL模板生成等步骤,再经过严格的推导获得了URL模板构建的算法.在新浪微地点和百度文库上的实验显示,推广的基于枚举的网络实体爬取方法具有较好的覆盖率和精确度,是一个实用且高效的爬取策略.

网络实体 爬取策略 网页地址模板

张俊骏 肖仰华 徐波 汪卫

复旦大学计算机科学技术学院 上海201203

国内会议

第31届中国数据库学术会议

太原

中文

187-195

2014-09-19(万方平台首次上网日期,不代表论文的发表时间)