基于文本模型的通用Web信息采集系统设计与实现

摘要：

随着Web上信息爆炸性增长，各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分，Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。本文主要分析和介绍一种通过建立网页资源库、结合Spider技术、内容分析技术，引入用户数据项和替换抽取指令编辑器等，提供和定制可视化、通用性较强的Web信息采集系统的设计实现思路，该系统能自动跟踪相关网站或网页，对其文本模型信息进行比较分析、抽取和规整入库等。

关键词：文本模型信息采集 Web服务

作者: 姜丽

作者单位: 装备指挥技术学院研究生院北京怀柔3380信箱221号,101416

会议类型: 国内会议

会议名称: 第二十四届全国计算机信息管理学术研讨会

会议地点: 南宁

会议语种:中文

页码: 250-256

在线出版日期: 2010-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于文本模型的通用Web信息采集系统设计与实现