会议专题

基于逻辑行列切分树的表格数据抽取算法

本文中提出了一种表示格式无关的表格描述模型及在此基础上实现的数据抽取算法.跟其它的表格模型及数据抽取算法相比,行列切分树模型存在着以下优势:1.建模的基本信息来自于表格自身的结构特点以及从结构特点上反映出来的逻辑联系,与表格的表示格式(HTML、PDF、EXCEL)无关,因此适用于各种格式的表格文档.2.通过逻辑联系的强弱而不仅仅是简单的行列位置来对单元格进行组织,逻辑关系越强的单元格聚合得越紧密,便于实现高效的剪枝.3.充分利用表格结构特点尽早过滤掉无关区域,减少对单元格内容进行无用匹配的次数.

表格数据 数据库 数据抽取 表格建模 逻辑行列切分树

周毅

清华大学计算机系知识工程组(北京)

国内会议

第二十届全国数据库学术会议

长沙

中文

556-558

2003-10-10(万方平台首次上网日期,不代表论文的发表时间)