一种基于URL枚举的网络实体爬取方法研究
如今互联网上的信息呈爆炸式增长,如何从海量的网页中爬取大量网络实体成为一个重要的研究课题.而现有的网络实体爬取策略存在不少的缺点.基于枚举的网络实体爬取策略具有许多优点,但其使用范围狭窄.在上述策略的基础上,通过研究网络实体的URL的规律来对其进行推广.首先引入URL模板的概念,然后提出并形式化定义了URL模板的构建方法,其中包括采样、聚类、URL模板生成等步骤,再经过严格的推导获得了URL模板构建的算法.在新浪微地点和百度文库上的实验显示,推广的基于枚举的网络实体爬取方法具有较好的覆盖率和精确度,是一个实用且高效的爬取策略.
网络实体 爬取策略 网页地址模板
张俊骏 肖仰华 徐波 汪卫
复旦大学计算机科学技术学院 上海201203
国内会议
太原
中文
187-195
2014-09-19(万方平台首次上网日期,不代表论文的发表时间)