基于语法分析的深层网络查询表单信息获取方法
当前深层网络数据库的数量以惊人的速度增长。查询表单是访问深层网络数据的入口,由于深层网络数据库中的数据隐藏在查询表单之后,难以获取其信息,造成大量信息资源的浪费。为集成深层网络数据,向用户查询提供方便,首要问题是理解查询表单。为此,在统计分析的基础上,提出了一种提取表单信息的方法。通过观察大量含有查询表单的页面,发现查询表单表现的一般结构,从而确定可能存在的表单语法。虽然来源不同,但通过表单语法引导查询表单的生成。研究还从通用性角度考虑,分析了中英文表单的差别,提出了一种获取表单信息的系统框架和方法,并通过代码序列语法和自动机解析器捕获表单语法,进而理解并自动识别表单。实验结果表明提取查询表单信息的整体准确率和召回率均达到94%以上。
深层网络查询表单 信息提取 模式识别 语法分析
Zhu Guanwen 祝官文 Wang Nianbin 王念滨 Wang Hongbin 王红滨
College of Computer Science and Technology, Harbin Engineering University, Harbin 150001 哈尔滨工程大学计算机科学与技术学院 哈尔滨 150001
国内会议
合肥
中文
1-7
2012-10-01(万方平台首次上网日期,不代表论文的发表时间)