会议专题

基于RSS的博客采集系统的设计与实现

提出一种基于RSS的博客采集系统实现方案。设计了两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。为算法设计并实现了一个模型系统,采集新浪、搜狐、百度、天涯和CSDN五个网站的博客频道内的所有博客文章,测试运行结果表明该方法是行之有效的。

博客信息采集 RSS 地址垂直搜索 跟踪检测

刘莉 肖诗斌 王涛 施水才

北京信息科技大学中文信息处理研究中心,北京,100101 北京拓尔思信息技术有限公司,北京,100101

国内会议

第二十一届全国计算机信息管理学术研讨会

银川

中文

23-31

2007-09-01(万方平台首次上网日期,不代表论文的发表时间)