表格图像的识别及基于XML技术的重建
二维表格是一种很常见的文档形式,由于其表达信息高度精炼,具有简明、规范、便于填写和处理等优点,被应用于信息领域的各个方面。因此提供一种表格自动处理系统非常具有现实意义。表格一般由一些有一定约束关系的横、竖线,印刷体字符,手写体字符等组成,而表格线的快速、准确提取是表格自动处理的关键。本文实现了一个将表格框线提取,表格图像存储到关系数据库,进而由关系数据模型转换成XML文档的实际应用系统。本文实现的系统可应用于同一页纸上有多个表格的处理。对于表格图像的识别,还提出了一种改进的基于数学形态学的表格框线识别方法。
图像识别 二维表格 关系数据模式 扩展标记语言技术
ZHANG Jian-li 张建丽 YANG Gen-xing 杨根兴
Department of Computer and Automation,Beijing Institute of Machinery,Beijing 100085 北京机械工业学院计算机与自动化系,北京,100085
国内会议
厦门
中文
242-246
2006-07-25(万方平台首次上网日期,不代表论文的发表时间)