会议专题

面向领域的Deep Web数据源发现与识别

由于Deep Web中包舍有大量结构良好的数据资源,因此如何集成Deep Web中的数据资源成为当前研究热点.其中,准确地发现并识别特定领域的Deep、Web数据源是高效获取Deep Web中数据信息的一个关键问题.通过分析Deep Web数据源特点,本文提出了一种面向领域的Deep Web数据源发现与识别方法.在发现阶段,通过对由爬虫获得的表单使用机器学习算法,结合启发式规则对表单进行二元分类,发现数据源的查询接口:而在识别阶段,采用基于Wordnet语义相似度的方法计算查询接口与领域的相关性,从而识别出与领域相关的Deep Web数据源。最后,通过在真实数据集上实验测试,结果表明,本文提出的方法对于识别特定领域的Deep Web 数据源具有较高的正确性和准确性.

查询接口 分类器 语义相似度 Web数据源 机器学习算法

李英军 聂铁铮 申德荣 于戈

东北大学 信息科学与工程学院,辽宁省 沈阳市 110004

国内会议

2009中国计算机大会

天津

中文

878-891

2009-10-23(万方平台首次上网日期,不代表论文的发表时间)