基于正则表达式的信息抽取系统在国防技术监测中的应用
从应用的角度提出了一种快速的基于正则表达式的半结构化信息抽取的方法。该方法通过对单个样本页面生成DOM树来完成抽取规则的自动生成,在实际大批量的抽取工作中能够避免多次生成页面DOM树。该方法采用了全部基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的定义和执行。通过Web页面的DOM树完成抽取规则的自动生成,抽取规则使用正则表达式的形式记录目标信息的页面特征,最终通过抽取规则的执行完成信息的抽取工作。并将这一新的方法应用在国防技术监测领域,获得最新的国防武器装备方面的信息。因此,该抽取系统具有较高的现实性与创新性,能够在一定程度上很好地支持国家重大国防和武器装备研制计划。
Web信息 抽取规则 正则表达式 信息抽取 国防技术 技术监测 武器装备
杨桢 赵燕平 朱东华
北京理工大学管理与经济学院,北京 100081
国内会议
北京
中文
452-459
2005-11-10(万方平台首次上网日期,不代表论文的发表时间)