文章列表-AI魔法学院

文章列表

50+ Midjourney 美食相关提示词，看了别留口水哦

本文不只是罗列 50 多个提示词，而是对它们进行分门别类，并附上图片。

midjourney 文生图绘画

语音识别的未来已来：深入了解faster-whisper的突破性进展

这种实现不仅提高了语音识别的速度，还优化了内存使用效率。

语音识别 Faster-Whisper

OCRmyPDF—可智能识别PDF文本和图片信息的工具

如果需要，可以在执行OCR之前对图像进行纠偏和/或清洁 •验证输入和输出文件 •在所有可用的CPU核心之间分配工作 •使用Tesseract OCR引擎识别超过

OCRmyPDF 工具

Stable Diffusion

Stable Diffusion基础：ControlNet之细节替换

作为 ControlNet，它会对参考图进行分块，并识别出区块内的对象。

StableDiffusion 文生图

「语音识别的未来已来」——探索Distil-Whisper，轻量级AI的强大力量

在AI技术的浪潮中，一款新型的语音识别模型Distil-Whisper以其独特的魅力和强大的性能脱颖而出。

Distil-Whisper 语音识别

OCR是什么以及推荐几款开源中文OCR识别软件

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

OCR

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

它的所有能力（录制、识别处理、存储回溯等）完全运行在本地，无需联网，不上传任何数据，只做应该做的事。

Windrecorder 录屏

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（

语音 HeyGen

60.2K Star！别再熬夜写样式了！Screenshot-to-Code：截个图，代码全搞定！！

别慌，这些问题 Screenshot-to-Code 通通帮你搞定！

Screenshot-to-Code 代码

国内厂商语音识别与Whisper评测：现状与概况对比

同时，Whisper（飞思卡尔语音识别技术）作为一项国际上也备受关注的语音识别技术，在语音识别领域也有着广泛的应用。

语音识别 Faster-Whisper

Coze多智能体（Multi-Agents）模式体验！

多智能体（Multi-Agents）和单智能体（Agent）有什么区别？

Coze 多智能体

Stable Diffusion

[Stable Diffusion]Segment Anything实现商业换装

Segment Anything是一种基于深度学习算法的图像分割工具，它可以将图像当中的每一个像素分配到对应的区域当中，能够实现精准的边缘识别。

Segment Anything 文生图

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

; Erwin_8.wav|Erwin|ZH|就必须像一个一流的诈骗犯一样 Erwin_9.wav|Erwin|ZH|对他们花言巧语一番可以看到，除了语气特别强烈的素材

Whisper 语音优化

掌握这10个AI 工具用1小时完成别人1周的工作

Vondy种类丰富多样，包含商业、设计、营销等20个类别。

AI 工具

13.5K Star ! Fish Speech Windows本地搭建，能否达到官方的级别？强烈推荐

下载安装 Visual Studio 社区版以获取 MSVC++ 编译工具, 解决 LLVM 的头文件依赖问题。

Fish Speech 本地搭建

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1