文章列表-AI魔法学院

文章列表

动画制作工具AnimateDiff用法详解

AnimateDiff 使用Stable Diffusion模型将文本提示转换为视频。

AnimateDiff 视频训练

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

教会AI画汉字（ComfyUI篇）

最近，央视公开了一些由ai生成的图片与视频，其中有几张图片非常有趣，成功吸引到了我，那便是这几张由ai与文字相结合的图片，这种奇妙的效果令我十分好奇，于是我便开始找寻相关的插件来达成类似的效果

comfyui 文生图

AI虚拟主播数字人技术实现Wav2Lip

主要通过将两个不相关的人的视频、音频，采用Wav2Lip技术，最终得到一个完整的视频文件，且视频的人物口型与音频内容一致。

数字人视频

京东开源普通话数字人JoyHallo，一口流利标准普通话还会讲英语

在音频驱动的视频生成领域，制作普通话视频面临着许多挑战。

JoyHallo 数字人开源模型

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

四大框架玩转AI人物视频生成，已落地通义千问APP。

通义文生视频

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

Sora是OpenAI公司发布的一款AI视频生成模型。

视频生成 sora

[Midjourney]人物镜头拍摄视角大全

掌握常用的10种拍摄视角，教你绘画出好的人像。

视图视角构图

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图

音视频 Flow Matching

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

FFmpeg之父新作——音频压缩工具 TSAC

其原理和我们之前介绍的突破压缩极限的AI语音编解码器类似，使用深度学习网络进行压缩，TSAC这里引入Transformer结构来提升性能。

TSAC 音频工具

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

用户可以上传各种类型的文件，包括文档、图片、音频和视频，同时还可以创建知识库，方便用户管理和搜索文件，还可以在对话中使用文件和知识库功能。

AI开源集合

从声纹模型到语音合成：音频处理 AI 技术前沿 | 开源专题 No.45

它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码，可以产生高质量音频。

AudioCraft 音频

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

在 WebUI 中使用 AnimateDiff 的一些问题和技巧

这两天晚上没事的时候就会尝试下AnimateDiff，发现这真的让视频生成上了一个大台阶，估计是到了AI视频爆发的前夜了。

AnimateDiff SD

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1