会议专题

基于MapReduce的视频爬虫系统研究

针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.

视频资源 爬虫系统 分布式架构 计算模型

孔涛 曹丙章 邱荷花

中国船舶重工集团公司第709研究所,湖北武汉430074 华中科技大学计算机科学与技术学院,湖北武汉430074

国内会议

第二十届全国网络与数据通信学术会议

武汉

中文

129-132

2014-11-01(万方平台首次上网日期,不代表论文的发表时间)