文章列表-AI魔法学院

文章列表

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

其中，OCR（Optical Character Recognition）技术将图像中的文字转化为可编辑的文本，为众多行业带来了极大的便利。

PaddleOCR 文字识别

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

Fastwhisper + Pyannote 实现 ASR + 说话者识别

同时在CPU和GPU上进行8位量化，可以进一步提高算法效率。

faster-whisper 语者识别 ASR

动作识别模型有哪些

动作识别模型主要有： · TWO-STREAM CNN:网络顾名思义分为两个部分，一部分处理RGB图像，一部分处理光流图像。

动作识别模型

为什么说AI现在还不行！

这还不够一个团队一年的工资，特别高端人才的情况，这甚至不够一个人的。

大模型

十大开源语音识别项目

Automatic Speech Recognition（ASR）是一项自动语音识别技术，其目标是通过计算机自动将人类口头语音转录为文本。

语音识别开源项目

【语音识别】OpenAI语音力作Whisper

与人类相比，在语音识别和语音翻译（x→en）上，模型的准确性和稳健性接近人类。

语音转文字 whisper

将任意文本转换为知识图谱

项目简介知识图谱，也称为语义网络，表示现实世界实体的网络，即物体、事件、情况或概念——并说明它们之间的关系。

知识图谱转换文本

我为什么不看好大模型行业

该理论指出，创新者不一定获利可能因为1）缺乏知识产权保护导致创新被模仿；2）互补品稀缺导致价值流向互补品。

大模型

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

Insanely Fast Whisper：超快的Whisper语音识别脚本

以下是我们在免费的 Google Colab T4 GPU 上运行的一些基准测试！

音频 Whisper

来个优秀的开源人脸识别项目！

生物识别技术是一种利用人体自身特征进行身份认证的技术。

人脸识别开源项目

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1