文章列表-AI魔法学院

文章列表

StableDiffusion

深度解析丨StableDiffusion在多个设计场景中的探索与应用

本文将深入解析StableDiffusion在多个设计场景中的探索与应用，尤其关注如何利用其制作多种商业落地案例。

文生图

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

主要特征语音合成：轻松将文本转换为类似人类的语音。

AI语音克隆实时语音识别

检索增强生成(RAG)：LLM企业级应用落地的挑战与思考

查询延迟受到数据规模、检索算法、网络IO等多方面影响。

大语言模型 RAG检索增强

OpenAI大动作：Whisper large-v3重塑语音识别技术

这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。

Whisper 语音识别

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

每个编码器层都有多头自注意力机制和前馈神经网络，用于对输入序列进行多层次的特征提取和表示学习。

Bert-vits 语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

LLM之RAG实战（五）| 高级RAG 01：使用小块检索，小块所属的大块喂给LLM，可以提高RAG性能

然而，在有效检索相关信息和生成高质量响应方面，RAG面临着许多挑战。

RAG 检索

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

，使用各种语音转换 AI (VC，Voice Conversion) 进行操作。

AudioCraft 音频

Prompt 策略：代码库 AI 助手的语义化搜索设计

ChatGPT 根据 CF 检查的代码，返回的答案：根据提供的代码，我们可以看到 CodeSemanticWorkflow 是一个继承自 Workflow 的类，它实现了 execute 方法来执行语义化的代码搜索

prompt

自己电脑上跑大语言模型（LLM）要多少内存？

在本地电脑上运行大型语言模型(LLM)，需要考虑的关键因素之一就是电脑的内存够不够。

大语言模型运行

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1