中文开源OCR框架对比及介绍 - AI魔法学院

中文开源OCR框架对比及介绍

AI魔法学院

2023-07-10

分享海报

从严格定义来看，学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。

OCR的基本流程可以简单分为以下几步：

1. 输入：不同的图像格式有不同的存储、压缩方式，目前有OpenCV、CxImage等。

2. 二值化：如今数码摄像头拍摄的图片大多是彩色图像，彩色图像所含信息量巨大，不适用于OCR技术。为了让计算机更快的、更好地进行OCR相关计算，我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

3. 图像降噪：对于不同的图像根据噪点的特征进行去噪的过程称为降噪。

4. 倾斜校正：由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐（我本人就经常拍的歪歪扭扭），因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

5. 版面分析：将文档图片分段落，分行的过程称为版面分析

6. 字符切割：由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割，即：将不同字符之间分割开。

7. 字符识别：早期以模板匹配为主，后期以结合深度网络的特征提取为主。版面还原：将识别后的文字像原始文档图片那样排列，段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程称为版面还原。

8. 后期处理：根据特定的语言上下文的关系，对识别结果进行校正。

9. 输出：将识别出的字符以某一格式的文本输出。

以上9步也可以简单总结为

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信：skillupvip

更多相关内容更多>>

OCR是什么以及推荐几款开源中文OCR识别软件

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

语音、视频转文字神器：开源whisper介绍

最强开源数字人对口型系统介绍

评论

0 评论

Ai魔法学院精选

中文开源OCR框架对比及介绍

从严格定义来看，学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。

2023-07-10

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文