文章列表-AI魔法学院

文章列表

[Midjourney]人物镜头拍摄视角大全

掌握常用的10种拍摄视角，教你绘画出好的人像。

视图视角构图

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图

音视频 Flow Matching

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

随着Sora等文生视频模型掀起热潮，很多人都在探讨文生视频模型能不能算作世界模型。

通义文生视频

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

FFmpeg之父新作——音频压缩工具 TSAC

前两天FFmpeg作者Fabrice Bellard在个人主页发布了一款音频压缩工具TSAC。

TSAC 音频工具

AI绘画Stable-Diffusion风格化实战

在社交软件和短视频平台上，我们时常能看到各种特色鲜明的视觉效果，比如卡通化的图片和中国风的视频剪辑。

Stable-Diffusion 文生图

教会AI画汉字（ComfyUI篇）

最近，央视公开了一些由ai生成的图片与视频，其中有几张图片非常有趣，成功吸引到了我，那便是这几张由ai与文字相结合的图片，这种奇妙的效果令我十分好奇，于是我便开始找寻相关的插件来达成类似的效果

comfyui 文生图

AI产品经理视角：如何构建人工智能产品

虽然它们都提供了令人兴奋的研究视角，但现实生活中的产品需要将数据、模型和人机交互结合到一个连贯的系统中。

大模型产品经理

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

Stable Diffusion

Stable Diffusion 快速创作角色三视图

天分享分享如何通过 Stable Diffusion 快速创造出角色三视图。

SD 三视图文生图

你的下一个浏览器，可以是豆包电脑版！

万万没想到，现在看B站视频的打开方式，竟然可以这么AI了。

豆包浏览器

ChatGPT Prompt提示词课程（斯坦福吴恩达 | OpenAl）指南篇极简笔记

对于大模型prompt的设计，近期斯坦福吴恩达伙同OpenAl出了一套视频教程（B站地址：https://www.bilibili.com/video/BV1AT41187qt?

prompt 大模型

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1