会议专题

基于预定义模式的Web信息抽取

本文针对HTML文档的信息抽取问题,提出了一种数据抽取的方法,该方法采用HTML树作为文档表示模型,边标记树作为文档的语义模型,对抽取规则给出了形式化的定义,描述了规则推导的算法,最后给出了系统的体系结构图和主要功能模块的描述.

数据抽取 HTML文档 抽取规则 数据集成

王海燕 谷明哲 王静 孟小峰

中国人民大学数据与知识研究所(北京)

国内会议

第18届全国数据库学术会议

南宁

中文

73-78

2001-05-01(万方平台首次上网日期,不代表论文的发表时间)