基于预定义模式的Web信息抽取

本文针对HTML文档的信息抽取问题,提出了一种数据抽取的方法,该方法采用HTML树作为文档表示模型,边标记树作为文档的语义模型,对抽取规则给出了形式化的定义,描述了规则推导的算法,最后给出了系统的体系结构图和主要功能模块的描述.
数据抽取 HTML文档 抽取规则 数据集成
王海燕 谷明哲 王静 孟小峰
中国人民大学数据与知识研究所(北京)
国内会议
南宁
中文
73-78
2001-05-01(万方平台首次上网日期,不代表论文的发表时间)
数据抽取 HTML文档 抽取规则 数据集成
王海燕 谷明哲 王静 孟小峰
中国人民大学数据与知识研究所(北京)
国内会议
南宁
中文
73-78
2001-05-01(万方平台首次上网日期,不代表论文的发表时间)