利用虚拟站点定位技术的网络信息检索研究
网络信息检索已经成为互联网用户获取信息的主要途径之一,如何利用有限的计算和存储资源覆盖更多更有用的网络信息则是当前研究的热点和难点.网格计算作为一种全新的资源共享协作方式,在结构化信息的获取和利用上对网络信息检索研究有一定的参考意义.虚拟组织是网格体系结构中的基本组织单元,对网页链接关系的研究发现,在网页集合中存在着类似虚拟组织的结构形式:虚拟站点.借鉴网格研究中对虚拟组织的组织特性分析和网页非内容特征的挖掘,可以进行虚拟站点入口页面的定位.实验发现,这类站点是在内容和链接上都具有较高质量的一个网页集合:仅为全部页面数量21﹪的虚拟站点入口页面集合涵盖了网络中70﹪以上的超链接,对这个网页集合进行的内容检索也比对网页全集的检索有超过60﹪的性能提高.这不仅为利用现有的大规模网络信息资源推动网格技术研究找到一条可行的途径,也提供了一种在减少索引规模前提下提高网络信息检索性能的解决方案.
网络信息检索 网格计算 虚拟组织 互联网
刘奕群 马少平
清华大学智能技术与系统国家重点实验室(北京)
国内会议
上海
中文
78-86
2004-11-01(万方平台首次上网日期,不代表论文的发表时间)