文章列表-AI魔法学院

文章列表

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

Google 模型解读 | MoveNet-SinglePose：自底向上做单人姿态估计

前言说起业务落地级别的姿态估计算法方案，大家基本上的共识都是top-down范式，也就是det+pose的形式，先由一个轻量级的目标检测模型提供bbox，再依次送入pose模型进行单人姿态估计

MoveNet-SinglePose Google 模型

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

MiniCPM-V是面向图文理解的端侧多模态大模型系列。

minicpm 面壁

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点，除了典型的身体骨骼关键点，还可以包括手、脚、脸部等关键点，是计算机视觉领域的基本任务之一。

ViTPose+Transformer 身体姿态

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

二、PaddleOCR功能特点 1.高准确率：PaddleOCR的算法经过精心设计和优化，可准确识别不同字体、字号、字形的文字图像，实现超越人眼识别率的准确率。

PaddleOCR 文字识别

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Fastwhisper + Pyannote 实现 ASR + 说话者识别

最近在研究ASR相关的业务，也是调研了不少模型，踩了不少坑，ASR这块，目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了，英文的话，还是非whisper莫属了，而且whisper很变态，

faster-whisper 语者识别 ASR

动作识别模型有哪些

TWO STREAM方法 Two-Stream方法是深度学习在动作识别方向的一大主流方向。

动作识别模型

十大开源语音识别项目

Whisper Whisper 是一个通用的语音识别模型。

语音识别开源项目

【语音识别】OpenAI语音力作Whisper

与人类相比，在语音识别和语音翻译（x→en）上，模型的准确性和稳健性接近人类。

语音转文字 whisper

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

Insanely Fast Whisper：超快的Whisper语音识别脚本

这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。最终，作者以实际测试数据展示了不同优化方式的速度对比。同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。这篇文章旨在展示如何使Whisper模型在转录2-3小时的音频时更加高效。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1