会议专题

一种主题Web爬虫系统的设计与实现

本文在深入分析Web页面爬取原理后,通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上,设计并实现了一个基于主题的Web爬虫系统.整个系统在较低性能的台式机上即可运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。

信息检索 主题爬虫 向量空间模型

王静宇 谭跃生

内蒙古科技大学网络中心 包头 014010

国内会议

全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会

北京

中文

307-309

2007-09-01(万方平台首次上网日期,不代表论文的发表时间)