基于Web数据库特征的Deep Web独立数据样本采样方法

摘要：

　　近年来，随着Deep Web研究的不断深入和人们对Web数据集成系统要求的提高，对Web数据库进行采样的质量要求也越来越高。针对属性值之间存在依赖关系的文本属性，定义了依赖关系矩阵并基于该矩阵给出了文本采样中的样本分配方法；为了方便采样，给出了采样树的定义并基于采样树给出了针对多属性组合的采样方法；另外，基于样本与数据源在特征匹配的度量，还给出了相应的采样质量评价方法和采样效率评价方法，实验测试表明，提出的方法能够较好地完成数据采样，提供高质量的采样结果。

关键词：信息采集资源配置 Web数据库评价指标

作者: Lin Peiguang 林培光

作者单位: School of Computer Science and Technology, Shandong University of Finance&Economics, Jinan 250014 山东财经大学计算机科学与技术学院济南250014

会议类型: 国内会议

会议名称: 第29届中国数据库学术会议

会议地点: 合肥

会议语种:中文

页码: 15-21

在线出版日期: 2012-10-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于Web数据库特征的Deep Web独立数据样本采样方法