文章列表-AI魔法学院

文章列表

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频

Video 视频创作 SD

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

国产视频制作之光-可灵：提示词大全整理

🍎图生视频建议一次一个词，如托腮，抬头。

可灵 kling 视频

AI虚拟主播数字人技术实现Wav2Lip

本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。

数字人视频

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

facebookresearch/audiocraft[1] Stars: 16.6k License: MIT AudioCraft 是一个用于音频生成的

AudioCraft 音频

TTS，一个奇妙的AI工具

简介 TTS是一个将文本变换成语音的AI工具。

TTS 文本转语音

免费的文本生成视频解决方案：AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI

AnimateDiff 是一个基于 Stable Diffusion 模型的文本生成视频插件，它通过控制模块影响图像生成过程，使得生成的图像序列具有与训练视频剪辑相似的特征。

视频生成文生视频

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

VividTalk：用一张照片和一段音频让人物栩栩如生地说话

最新的突破来自VividTalk项目，这是一个能够将单张照片和一段音频结合起来，创造出仿佛真人在说话的视频的技术。

VividTalk 视频

OpenAI视频模型Sora的推理生成成本多高？

由于 Diffusion 模型训练 text to video 需要高质量的标注视频，因此我们可以估计 Sora 训练的视频量级为 1亿分钟左右。

Sora 推理算力

中国首个长时长、高一致性、高动态性视频大模型，Vidu 登场

今日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——「Vidu」。

Vidu 大模型视频

阿里AI黑科技大揭秘：从通义千问到FaceChain，让图片和视频焕发新生！

上传一段视频，AI 自动识别视频中的运动主体人物，并一键替换成有趣的 3D 角色模型，生成与众不同的 AI 视频。

阿里云视频音频

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

郭德纲讲英语相声详细教程

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型的AI短视频吧！

数字人音视频

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

<1 234 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1