基于查询接口特征的Deep Web数据源自动分类

摘要：

搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为Deep Web.其中大部分Deep Web是结构化的,它提供结构化的查询接口和结构化的结果.把这些结构化的Deep Web数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模Deep Web集成搜索的一个关键步骤.提出了一种基于查询接口特征的Deep Web数据源自动分类方法,并通过实验验证该方法是非常有效的.

关键词： Deep Web 自动分类机器学习数据集成

作者: 赵朋朋高岭崔志明

作者单位: 苏州大学,智能信息处理及应用研究所,江苏,苏州,215006

会议类型: 国内会议

会议名称: 2006年全国开放式分布与并行计算学术会议

会议地点: 西安

会议语种:中文

页码: 279-282

在线出版日期: 2006-10-19（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于查询接口特征的Deep Web数据源自动分类