文章列表-AI魔法学院

文章列表

动作识别模型有哪些

TWO STREAM方法 Two-Stream方法是深度学习在动作识别方向的一大主流方向。

动作识别模型

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

【语音识别】OpenAI语音力作Whisper

一、介绍 Whisper 是一系列用于自动语音识别 (automatic speech recognition，ASR) 的预训练模型，它由来自于 OpenAI 的 Alec Radford

语音转文字 whisper

【重磅推荐】PaddleOCR：超越人眼识别率的AI文字识别神器！

4.批量处理：PaddleOCR支持批量处理，用户可以一次性上传多个图片进行文字识别，极大提高工作效率。

PaddleOCR 文字识别

Fastwhisper + Pyannote 实现 ASR + 说话者识别

官方仓库：https://github.com/pyannote/pyannote-audio 三、faster-whisper + pyannote.audio 实现语者识别实际上只要将二者的识别结果进行结合即可

faster-whisper 语者识别 ASR

十大开源语音识别项目

Automatic Speech Recognition（ASR）是一项自动语音识别技术，其目标是通过计算机自动将人类口头语音转录为文本。

语音识别开源项目

《构建个人知识图谱》：让 AIGC 帮你自动构建知识图谱

选择第二种方案，自动获取节点介绍然后让 LLM 总结，流程如下： AIGC 自动生成知识节点摘要流程知识节点摘要介绍实现由于我们维护了知识节点的主页，所以可以很方便的通过程序获取主页上的介绍

提示词文生图 AIGC

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

Insanely Fast Whisper：超快的Whisper语音识别脚本

作者提供了几种优化方式，包括批处理、半精度处理以及BetterTransformer，以提高转录速度。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

解读wav2lip：探究语音驱动唇部动作的技术原理！

（2）传统的基于GAN的判别器在音频-口型同步检测方面准确率较低：传统的GAN判别器只使用单帧图像来评估口型同步，缺乏时间上下文信息，无法评估口型动态变化质量。

wav2lip 语音

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

自动化神器Autolt：不再重复工作

，旨在简化Windows图形用户界面（GUI）的自动化任务。

RPA 自动

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

<12 3 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1