文章列表-AI魔法学院

文章列表

OCR是什么以及推荐几款开源中文OCR识别软件

一、OCR是什么？

OCR

OCR的终极解法——传统算法VS多模态大模型

OCR 后处理一直是麻烦的事情，如果用传统的算法会有训练需要准备大量的数据，迭代更新效果差的问题，不过速度确实快。

OCR 大模型文字识别

几款开源的OCR识别项目，收藏备用

tesseract Tesseract，一款由HP实验室开发由Google维护的开源OCR引擎，开源，免费，支持多语言，多平台; https://github.com/tesseract-ocr

OCR

中文开源OCR框架对比及介绍

OCR的基本流程可以简单分为以下几步： 1.

OCR

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

还是包含了公式的文档图片：又或是手机页面截图：甚至可以将图片中的表格转换成 Latex 格式：当然，作为多模大模型，通用能力的保持也是必须的： Vary 表现出了很大的潜力和极高的上限，OCR

OCR 手写文字识别

14.6K star！最好用的OCR文字识别项目，没有之一！

最近，在Github上发现了一个厉害的开源OCR项目——Umi-OCR，真的很强大，而且还可以离线使用，现在已经有了14.6k+的星标。

Umi-OCR 开源项目文字识别

TrOCR——基于transformer模型的OCR手写文字识别

这里一旦提到OCR相关的技术，肯定第一个想到的便是CNN卷积神经网络，毕竟CNN卷积神经网络在计算机视觉任务上起到了至关重要的作用。

OCR 手写文字识别

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

现在，Meta AI 推出了一个 OCR 神器，可以很好的解决这个难题，该神器被命名为 Nougat。

大模型

8个常用中文OCR数据集，附下载链接

TotalText数据集样例示意（图源：OpenDataLab） No.8 Caffe-ocr中文合成数据下载链接：https://github.com/senlinuc/caffe_ocr

OCR

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

面壁智能正式发布了新一代 MiniCPM 系列模型，包括四个模型： · OCR

MiniCPM 大模型

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

nbsp; 词云、时间轴、光箱、散点图的数据总结录制完片段后自动识别，闲时自动维护、清理与压缩视频多语言支持：已完成界面与 OCR

Windrecorder 录屏

完全指南——使用python提取PDF中的文本信息（包括表格和图片OCR）

带OCR的扫描文档：这种类似有点特殊，在扫描文档后，使用光学字符识别(OCR)软件识别文件中每个图像中的文本，将其转换为可搜索和可编辑的文本

大语言模型 python

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

其中，OCR（Optical Character Recognition）技术将图像中的文字转化为可编辑的文本，为众多行业带来了极大的便利。

PaddleOCR 文字识别

Selenium+ddddocr | 再也不担心图片验证码

ddddocr库介绍 ddddocr（Deep Double-Digital Digits OCR）是一个基于深度学习的OCR（Optical Character Recognition，

Selenium ddddocr库

7.1k Star！RAGFlow：最新开源OCR+深度文档理解的RAG引擎、大海捞针测试、降低幻觉、服务化API集成进业务！

RAGFlow 是一个基于Deepdoc（深度文档理解）的开源 RAG（检索增强生成）引擎，仅仅一月，Github斩获近7.1k Star！ RAGFlow大大提升知识库RAG的召回率，不仅智能，而且可控可解释、真正在无限上下文（token）的场景下快速完成大海捞针测试、提供易用的 API，可以轻松集成到各类企业系统。

OCR RAG 开源

<12 3 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1