基于最大熵模型的OCR错误校正方法
OCR(光学字符识别)是指先获取带汉字的图像,然后对图像文件进行分析处理,获取文字信息的过程.在识别出文字之后,如何利用上下文信息来纠正识别错误的字,也是就所谓的错误校正,进而提高识别正确率,是OCR中重要的课题.本文介绍了一种基于最大熵模型的校正方法,很大限度地利用了上下文信息,可以同时纠正多个识别错误的汉字,在实验中取得了很好的效果.通过对比几种不同的校正方案,可以看出基于最大熵模型的错误校正方法是最有效的,也是扩展性最好的方法,它可以方便地利用各种语言特征,更进一步的提高准确率.实验结果表明基于最大熵的模型是一个很适合OCR校正的模型.
光学字符识别 错误校正 最大熵模型
蔡洽吾 廖睿之 陈强
华南理工大学电子与信息学院,广州510640
国内会议
第十六届全国图象图形学学术会议 暨第六届立体图象技术学术研讨会
长春
中文
500-505
2012-07-30(万方平台首次上网日期,不代表论文的发表时间)