基于增量贝叶斯算法的主题爬虫的设计与实现
主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学习新的知识,因而很难符合Web资源采集的需要。在线学习新下载页面可加速主题爬行过程、提高页面下载精度。本文介绍了通用爬虫和主题爬虫的区别,通过对增量朴素贝叶斯分类算法的研究,设计了一个基于增量贝叶斯分类器的主题爬虫,并介绍了爬虫的系统结构及关键部分的实现。
网络搜索引擎 主题爬虫 增量贝叶斯算法 系统结构
PENG Xiao-ming 彭小明 XIN Yang 辛阳
Information Security Center,Beijing University of Posts and Telecommunications,Beijing 100876,China 北京邮电大学信息安全中心,北京 100876
国内会议
北京
中文
331-336
2012-08-17(万方平台首次上网日期,不代表论文的发表时间)