PDF文档中的脚注识别研究
针对PDF文档的脚注识别问题,提出了一种识别脚注及其在文中的引用,并建立它们之间链接关系的方法.首先针对PDF 文档提取了脚注的一系列特征,包括页面布局、字体信息、语义信息等,然后基于文档部件风格一致性,利用聚类技术处理在不同文档中变化但在同一文档中稳定的特征,从而使得识别过程能够适应不同文档类型.此外,利用匹配过程的结果为识别过程提供反馈,进一步提高了准确性.在真实文档测试集上的实验结果表明,提出的方法对于PDF文档的脚注识别取得了较高的准确率与召回率.
PDF文档 脚注识别 设计流程
黎斯达 高良才 汤帜 俞银燕
北京大学计算机科学技术研究所,北京100080
国内会议
北京
中文
1-6
2014-11-01(万方平台首次上网日期,不代表论文的发表时间)