一种主题Web爬虫系统的设计与实现
本文在深入分析Web页面爬取原理后,通过引入基于向量空间模型的主题相似度计算方法和改进的PageRank经典算法的基础上,设计并实现了一个基于主题的Web爬虫系统.整个系统在较低性能的台式机上即可运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。
信息检索 主题爬虫 向量空间模型
王静宇 谭跃生
内蒙古科技大学网络中心 包头 014010
国内会议
全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会
北京
中文
307-309
2007-09-01(万方平台首次上网日期,不代表论文的发表时间)