会议专题

基于语法分析的深层网络查询表单信息获取方法

  当前深层网络数据库的数量以惊人的速度增长。查询表单是访问深层网络数据的入口,由于深层网络数据库中的数据隐藏在查询表单之后,难以获取其信息,造成大量信息资源的浪费。为集成深层网络数据,向用户查询提供方便,首要问题是理解查询表单。为此,在统计分析的基础上,提出了一种提取表单信息的方法。通过观察大量含有查询表单的页面,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但通过表单语法引导查询表单的生成。研究还从通用性角度考虑,分析了中英文表单的差别,提出了一种获取表单信息的系统框架和方法,并通过代码序列语法和自动机解析器捕获表单语法,进而理解并自动识别表单。实验结果表明提取查询表单信息的整体准确率和召回率均达到94%以上。

深层网络查询表单 信息提取 模式识别 语法分析

Zhu Guanwen 祝官文 Wang Nianbin 王念滨 Wang Hongbin 王红滨

College of Computer Science and Technology, Harbin Engineering University, Harbin 150001 哈尔滨工程大学计算机科学与技术学院 哈尔滨 150001

国内会议

第29届中国数据库学术会议

合肥

中文

1-7

2012-10-01(万方平台首次上网日期,不代表论文的发表时间)