会议专题

版面相似中文表单的分类方法研究

针对具有相似版面的中文表单,提出一种简单有效的基于距离度量的表单分类方法,该方法对表单的用户填写信息、布局信息和位置偏移分别进行距离度量,并通过3种权重有效地降低用户填写信息的随机性、版面相似表单的布局一致性和位置抖动性对表单分类的影响.实验表明,所提方法在多个中文表单图像库上的分类准确率达到90%以上,比目前最新的表单分类方法有明显提高.

中文表单 分类算法 距离度量理论 版面设计

王思萌 高良才 王悦涵 李平立 汤帜

北京大学计算机科学技术研究所,北京100080

国内会议

第三届CCF国际自然语言处理与中文计算会议

深圳

中文

213-219

2014-12-05(万方平台首次上网日期,不代表论文的发表时间)