会议专题

基于多分类器的Deep Web入口发现

Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域Deep Web数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的Deep Web入口发现方法是可行的。

本体 主题爬行 决策树 Deep Web 多分类器

王英 左万利 王鑫 彭涛

吉林大学计算机科学与技术学院,长春,130012;教育部符号计算与知识工程重点实验室 长春工程学院软件学院,长春,130012

国内会议

第六届全国信息检索学术会议

黑龙江镜泊湖

中文

251-258

2010-08-12(万方平台首次上网日期,不代表论文的发表时间)