会议专题

基于增量贝叶斯算法的主题爬虫的设计与实现

  主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学习新的知识,因而很难符合Web资源采集的需要。在线学习新下载页面可加速主题爬行过程、提高页面下载精度。本文介绍了通用爬虫和主题爬虫的区别,通过对增量朴素贝叶斯分类算法的研究,设计了一个基于增量贝叶斯分类器的主题爬虫,并介绍了爬虫的系统结构及关键部分的实现。

网络搜索引擎 主题爬虫 增量贝叶斯算法 系统结构

PENG Xiao-ming 彭小明 XIN Yang 辛阳

Information Security Center,Beijing University of Posts and Telecommunications,Beijing 100876,China 北京邮电大学信息安全中心,北京 100876

国内会议

第九届中国通信学会学术年会

北京

中文

331-336

2012-08-17(万方平台首次上网日期,不代表论文的发表时间)