会议专题

基于概率预测的主题爬虫

  在对现有多种主题爬虫学习和研究的基础上,针对大多数主题爬虫抓取策略单一这个缺陷,提出了一种基于概率预测的主题爬虫,它综合多方面的特征信息来进行分析,运用概率预测模型计算每个URL的优先值,从而对URL进行过滤和排序。基于概率预测的主题爬虫除了主题相关度评价指标之外,还引入了网页质量评价指标和历史评价指标。最后通过多组对比试验,验证了其在主题网页召回率和平均主题相关度上的优越性。

搜索引擎 主题爬虫 概率预测 特征信息

白玉昭 梁久祯

江南大学物联网工程学院 无锡 214122

国内会议

第十一届中国Rough集与软计算学术会议、第五届中国Web智能学术研讨会及第五届中国粒计算学术研讨会联合学术会议

南京

中文

43-47

2011-11-01(万方平台首次上网日期,不代表论文的发表时间)