基于RSS的博客采集系统的设计与实现
提出一种基于RSS的博客采集系统实现方案。设计了两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。为算法设计并实现了一个模型系统,采集新浪、搜狐、百度、天涯和CSDN五个网站的博客频道内的所有博客文章,测试运行结果表明该方法是行之有效的。
博客信息采集 RSS 地址垂直搜索 跟踪检测
刘莉 肖诗斌 王涛 施水才
北京信息科技大学中文信息处理研究中心,北京,100101 北京拓尔思信息技术有限公司,北京,100101
国内会议
银川
中文
23-31
2007-09-01(万方平台首次上网日期,不代表论文的发表时间)