双结构网络中URL去重机制研究
Bloom Filter是一种利用二进制数组表示集合的随机数据结构,被广泛应用于网络爬虫URL去重问题.本文介绍了Bloom Filter的工作原理,针对双结构网络的特点及其URL去重面临的挑战,提出一种基于可扩展的动态可分裂BloomFilter的URL去重机制,并在原型系统中进行实现和部署,实验结果表明该机制能够有效适用于大规模、高性能和分布式的双结构网络爬虫应用.
双结构网络 网络爬虫 统一资源定位符 去重机制
袁志伟 杨鹏 刘旋
东南大学 计算机科学与工程学院,南京市211100;东南大学 计算机网络和信息集成教育部重点实验室,南京市 211100
国内会议
第10届全国计算机支持的协同工作学术会议暨中国计算机学会协同计算专委年度工作会议
太原
中文
367-375
2015-08-28(万方平台首次上网日期,不代表论文的发表时间)