文章列表-AI魔法学院

文章列表

全球最大开源prompt社区即将开放中文版

别人都在用prompt做什么？

开源模型

【语音识别】OpenAI语音力作Whisper

与人类相比，在语音识别和语音翻译（x→en）上，模型的准确性和稳健性接近人类。

语音转文字 whisper

TrOCR——基于transformer模型的OCR手写文字识别

前期我们使用大量的篇幅介绍了手写数字识别与手写文字识别，当然那里主要使用的是CNN卷积神经网络，利用CNN卷积神经网络来训练文字识别的模型。

OCR 手写文字识别

openpose原理及安装教程（姿态识别）

OpenPose是一个用于实时多人姿态估计的开源库，它可以检测图像或视频中的人体关键点，并且能够识别不同的身体部位和动作。

行为识别姿态识别

Stable Diffusion

Stable Diffusion 和 Midjourney的优劣势比较，如何选择？

③使用难度较低：基本上复制别人已有的提示词，选好选项，就能出图。

文生图

Insanely Fast Whisper：超快的Whisper语音识别脚本

同时，还提到了Whisper.cpp的性能测试、4位推断性能测试、以及一个CLI工具的社区展示。

音频 Whisper

来个优秀的开源人脸识别项目！

虹膜识别技术通过全自动照相机寻找并聚焦虹膜，实现高精度识别。

人脸识别开源项目

OpenAI 开源语音识别 Whisper 的使用体验怎么样？

关于Buzz 　　Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具，能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。

生成式AI

人脸识别的开源的项目有哪些？

OpenCV：OpenCV（Open Source Computer Vision Library）是一个广泛使用的计算机视觉库，提供了许多人脸识别算法和工具。

人脸识别开源项目

Stable Diffusion

全面理解Stable Diffusion采样器

他们之间的区别是什么？

绘画采样器 SD

[开源]面向中小团队的轻量化知识管理应用，构建知识库和知识社区

使用BSD-3-Clause开源协议三、界面展示产品截图四、功能概述 “知了”以知识管理的全生命周期为核心，围绕知识的分享再利用，构建中小团队的知识库和知识分享社区，

大模型

几款开源的OCR识别项目，收藏备用

github.com/PaddlePaddle/PaddleOCR.git EasyOCR EasyOCR是用Python编写基于Tesseract的OCR识别库

OCR

开源免费离线语音识别神器whisper如何安装

当然，我们知道一些商业公司提供语音识别服务，但是基本都是联网运行，个人隐私安全总是有隐患，而whisper完全不同，whisper完全在本地运行，无需联网，充分保障了个人隐私，且whisper识别准确率相当高

wisper 翻译免费

14.6K star！最好用的OCR文字识别项目，没有之一！

伙伴们，平时都会用到文字识别吧？

Umi-OCR 开源项目文字识别

AI“同声传译”新进展！Google发布，无监督，语音识别：Translatotron 3！

语音识别（ASR）是指将人类的语音转换为文本的技术，然而，目前的语音识别技术还面临着一些挑战，其中最大的一个就是如何支持更多的语言。

Translatotron 语音识别

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1