网络信息保存中深网信息抓取策略初探
随着网络保存工作的研究逐步深入,深层网络(deep web)信息的价值日益显现,仅仅保存网络资源中的浅层网(surface web)资源难以满足网络信息保存的要求,而深网资源有着和浅层网资源完全不同的获取方法,这给深网资源的获取带来不小挑战.本文从浅层网信息获取的一般原理开始,讨论了深网信息获取的特点和难点,并提出了深网资源获取的一般思路,最后举出了在这种思路下两种具体流程并分析了其中存在的问题.指出针对多个网络数据库的集成访问方式研究如何实现自动选择和查询主题相关的数据库,并通过集成的查询模式对多个数据库统一查询,旨在提供众多web数据库的统一访问途径。从原理上来看这种集成访问方式更像是对多个数据库同时访问,统一处理结果。针对某主题的深网资源获取要求配备和所涉主题相关的领域本体知识库,即要求有丰富的领域知识的支持。
国家图书馆 深层网络 信息资源 抓取策略
张学青
国家图书馆
国内会议
北京
中文
19-24
2013-09-01(万方平台首次上网日期,不代表论文的发表时间)