基于预定义模式的Web信息抽取

摘要：

本文针对HTML文档的信息抽取问题,提出了一种数据抽取的方法,该方法采用HTML树作为文档表示模型,边标记树作为文档的语义模型,对抽取规则给出了形式化的定义,描述了规则推导的算法,最后给出了系统的体系结构图和主要功能模块的描述.

关键词：数据抽取 HTML文档抽取规则数据集成

作者: 王海燕谷明哲王静孟小峰

作者单位: 中国人民大学数据与知识研究所(北京)

会议类型: 国内会议

会议地点: 南宁

会议语种:中文

页码: 73-78

在线出版日期: 2001-05-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题