文章列表-AI魔法学院

文章列表

6个AI音乐软件推荐，让你学会人工智能AI作曲

在当下的应用中，AI已经可以影响音乐制作过程的各个方面，包括音乐生成、音频掌握等。

训练音乐

Stable Diffusion

Stable Diffusion AnimateDiff | 最火文本生成视频插件库

AnimateDiff介绍 AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。

动画视频 AnimateDiff

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

如果你想亲自上手试试，打开对话输入“EMO”直达或进入“频道”选择“全民舞台”即可。

音频阿里

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

图文生成短视频的方法

把所有不需要的画面替换成自己需要的画面之后，你会在最下方看到两端音频。

视频 ChatGPT

AI文本转语音工具（TTS）：MeloTTS

今天给大家介绍一个效果不错的开源文本转语音工具：MeloTTS MeloTTS是一个可以把文字转换成声音的工具，它支持英语、西班牙语、法语、中文、日语和韩语等多种语言。

MeloTTS 语音工具

开源语音大语言模型来了！阿里基于Qwen-Chat提出Qwen-Audio!

使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

大模型语音

17K star！30秒偷走你的声音，开源声音克隆工具

OpenVoice 只需要来自目标说话者的简短音频样本即可准确复制其独特的声调和特征。

OpenVoice 声音克隆开源

比真人还像真人！字节跳动PersonaTalk的黑科技有多强大？

字节跳动最近推出了一款名为PersonaTalk的AI模型，这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。

PersonaTalk 视频

解读OpenAI Sora文生视频技术原理

图像视频作为prompts，用户提供的图像或视频可以自然的编码为时空碎片Patch，用于各种图像和视频编辑任务 -- 静态图动画、扩展生成视频、视频连接或编辑等。

sora

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

视频大模型训练相关词条解释

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora 词条

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

F5-TTS：上海交大开源超逼真声音克隆TTS，告别ElevenLabs，以后就用它了！实测真的很牛

音频克隆的开源项目很多，但是每次项目里要用的时候，总还是惦记着11labs的api。

F5-TTS 音频克隆

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1