文章列表-AI魔法学院

文章列表

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

语音素材和模型首先我们需要渣渣辉和刘青云的原版音频素材，原版《扫毒》素材可以参考：https://www.bilibili.com/video/BV1R64y1F7SQ/。

Bert-vits 语音

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

作为一种重要模态，语音提供了超越文本的多样且复杂的信号，如人声中的情感、语调和意图，自然声音中的火车汽笛、钟声和雷声，以及音乐中的旋律。

大模型语音

RAG 2.0来了，它能成为生产落地的福音吗？

RAG作为当前最流行、相对成熟的的LLM应用架构，受到了开发者的广泛关注，相关围绕RAG优化的技术层出不穷，但依旧难逃达不到生产应用要求的尴尬。

RAG 大模型

GPTs使用指南 | 保姆级GPTs入门教程，0代码基础也能做AI产品

· 三、GPTs创建完成上述操作完成后点击保存，恭喜你创造了自己的AI产品，成为全球拥有GPTs应用的一员啦！

GPTs 入门教程

Insanely Fast Whisper：超快的Whisper语音识别脚本

项目简介这篇内容介绍了OpenAI的Whisper Large v2语音转录模型的超快速能力。

音频 Whisper

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

解读wav2lip：探究语音驱动唇部动作的技术原理！

本文将深入介绍一下wav2lip的技术原理和细节，了解它是如何实现语音驱动唇部运动的！

wav2lip 语音

网易有道强力开源中英双语语音克隆

其中的音素（phonemes）可以这样得到： python frontend.py data/my_text.txt > data/my_text_for_tts.txt. 5.

语音开源

备案通过且面向公众开放的国产精品大模型汇总，附访问链接

今年(2023年)8月15日正式施行的《生成式人工智能服务管理暂行办法》要求每一个大模型企业的生成式AI产品若想要“持证上岗”，就必须逐条核对是否符合这改办法的要求。

大模型国产

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

生成式AI工作流#产品经理和创业者的秘密武器

在我过去的文章里有说过，产品经理是“帮助团队交付正确产品给用户的人”。

AIGC 工作流

基于 OpenAI Whisper 模型的实时语音转文字工具

· WhisperLive 是一款专注于音频处理和创作的开源软件，使用 OpenAI Whisper 模型将语音输入转换为文本输出，可以用于转录麦克风的实时音频输入和预先录制的音频文件，为艺术家和音乐制作人提供了一个强大的平台

WhisperLive 音频开源软件

登顶的小熊猫模型出AI产品了！3步10秒出一张海报，可免费商用

难怪网友惊呼，这杀死了海报制作比赛，它看上去没把Midjourney当竞品，而是要和Adobe和Canva一较高下。

图形设计生成器文生图

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

在AI的众多分支中，语音识别技术的突破性进展尤为引人瞩目。

Whisper 语音识别

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

如果说 ChatGPT 是聊天式的 AI，Flowith 这类产品，可以简称为画布式的 AI。

ChatGPT 聊天

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1