PDF文档中的脚注识别研究

摘要：

针对PDF文档的脚注识别问题,提出了一种识别脚注及其在文中的引用,并建立它们之间链接关系的方法.首先针对PDF 文档提取了脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术处理在不同文档中变化但在同一文档中稳定的特征,从而使得识别过程能够适应不同文档类型.此外,利用匹配过程的结果为识别过程提供反馈,进一步提高了准确性.在真实文档测试集上的实验结果表明,提出的方法对于PDF文档的脚注识别取得了较高的准确率与召回率.

关键词： PDF文档脚注识别设计流程

作者: 黎斯达高良才汤帜俞银燕

作者单位: 北京大学计算机科学技术研究所,北京100080

会议类型: 国内会议

会议名称: 2014全国文档信息处理学术会议

会议地点: 北京

会议语种:中文

页码: 1-6

在线出版日期: 2014-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

PDF文档中的脚注识别研究