会议专题

基于文本模型的通用Web信息采集系统设计与实现

随着Web上信息爆炸性增长,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。本文主要分析和介绍一种通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化、通用性较强的Web信息采集系统的设计实现思路,该系统能自动跟踪相关网站或网页,对其文本模型信息进行比较分析、抽取和规整入库等。

文本模型 信息采集 Web服务

姜丽

装备指挥技术学院研究生院 北京怀柔3380信箱221号,101416

国内会议

第二十四届全国计算机信息管理学术研讨会

南宁

中文

250-256

2010-11-01(万方平台首次上网日期,不代表论文的发表时间)