互联网舆情监控系统中聚焦爬虫的研究
本文对质检总局互联网舆情监控系统中聚焦爬虫进行了研究,给出了爬虫算法和关键技术,研究了聚焦爬虫的工作流程、组成、架构.聚焦爬虫由页面相关度评价模块、搜索链接评价模块和页面提取模块组成.本文给出了以上模块的组成及相互关系.针对聚焦爬虫中存在的问题,给出了具体的解决方案。
互联网舆情 监控系统 聚焦爬虫 评价算法
王旭 杜军平
北京邮电大学计算机学院,智能通信软件与多媒体北京市重点实验室,北京 100876
国内会议
北京
中文
277-281
2010-10-30(万方平台首次上网日期,不代表论文的发表时间)