文章列表-AI魔法学院

文章列表

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

二、PaddleOCR功能特点 1.高准确率：PaddleOCR的算法经过精心设计和优化，可准确识别不同字体、字号、字形的文字图像，实现超越人眼识别率的准确率。

PaddleOCR 文字识别

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

中文文本标注优化 Whisper经常被人诟病的一点是对中文语音转写后标点符号的支持不够完备。

Whisper 语音优化

OCRmyPDF—可智能识别PDF文本和图片信息的工具

•验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识别超过100种语言 •保护您的私人数据安全

OCRmyPDF 工具

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Fastwhisper + Pyannote 实现 ASR + 说话者识别

前言最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且

faster-whisper 语者识别 ASR

OCR是什么以及推荐几款开源中文OCR识别软件

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

动作识别模型有哪些

动作识别模型主要有： · TWO-STREAM CNN:网络顾名思义分为两个部分，一部分处理RGB图像，一部分处理光流图像。

动作识别模型

十大开源语音识别项目

Automatic Speech Recognition（ASR）是一项自动语音识别技术，其目标是通过计算机自动将人类口头语音转录为文本。

语音识别开源项目

【语音识别】OpenAI语音力作Whisper

这么多的标注数据使得我们可以直接在有监督语音识别任务上预训练Whisper，从标注音频转录数据中直接习得语音到文本的映射。

语音转文字 whisper

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次，只需一句话命令，多模态大模型 Vary 直接端到端输出结果：无论是中英文的大段文字

OCR 手写文字识别

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

来个优秀的开源人脸识别项目！

通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段的密切结合，将人体固有的生理特征或行为特征收集起来，进行取样、数字化处理和分析。

人脸识别开源项目

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1