会议专题

基于DOM树的DeepWeb接口属性自动提取算法

  Deep Web接口集成是为了向用户提供一个统一的查询接口来获取Deep Web信息。要完成Deep Web接口集成,首先需对各Deep Web接口的属性进行自动提取,它们是后续集成工作的基础,如何将属性与其对应的语义文本进行准确的匹配是其中的难点。本文提出了一种基于表单DOM树的Deep Web接口属性自动提取算法,以控件节点作为起始节点,然后通过自右向左遍历的方式逐层寻找与控件相对应的语义文本,从而确定每个属性的语义信息,最后将提取的接口属性集采用XML格式保存,实验结果表明此算法具有较高的提取准确率。

数据库管理 Deep Web接口 表单DOM树 属性自动提取算法 语义文本 XML格式

朱杨 段青玲

中国农业大学信息与电气工程学院计算机系,北京 100083

国内会议

中国畜牧兽医学会信息技术分会2012年学术研讨会

广西北海

中文

114-122

2012-08-01(万方平台首次上网日期,不代表论文的发表时间)