Deep Web爬虫研究与设计

摘要：

随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的。

关键词： Deep Web页面路径导航模式领域本体知识库爬虫数据库信息集成

作者: 郑冬冬赵朋朋崔志明

作者单位: 苏州大学,计算机科学与技术系,苏州,215006

会议类型: 国内会议

会议名称: 第三届全国搜索引擎和网上信息挖掘学术研讨会

会议地点: 北京

会议语种:中文

页码: 1896-1902

在线出版日期: 2005-09-26（万方平台首次上网日期，不代表论文的发表时间）

会议专题

Deep Web爬虫研究与设计