文章列表-AI魔法学院

文章列表

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

Stable Diffusion

读取大脑重建高清视频，Stable Diffusion还能这么用

但以往的研究都主要聚焦在重建静态图像，而以高清视频形式来展现的工作还是较为有限。

stablediffusion

《嬛嬛朕emo啦》但马斯克！阿里这项技术开放试玩

现在登录通义App（原通义千问），选择全民演唱功能，只需上传任意一张人物正面大头照，你也能玩儿了。

音频阿里

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法

它通过各种短视频剪辑进行训练。

动画 animate sd

Stable Diffusion

Stable Diffusion AnimateDiff | 最稳定的基于文本生成视频的方法！

它通过各种短视频剪辑进行训练。

文本生成视频 AnimateDiff

再次重点介绍！！！这款国内的AI制作视频工具

之前介绍过一款图片生成视频的工具-Flow Photo，99%的人不知道的一款国内的AI制作视频工具。

Flow Photo 视频

GPT-4o实时语音方案提供商Livekit开源voice agent：轻松处理音视频流

轻松访问 LiveKit WebRTC 会话并处理或生成音频、视频和数据流。

voice agent 开源音视频

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

比如输入“Chinese ink painting”，风景纪录片能秒变国风水墨大作。

ControlNet

用AI做郭德纲说英文相声的爆款视频（详细教程）

郭德纲用英文说相声的短视频火爆全网，单条视频点赞破9.7万，转发量更是高达11.8万，AI的内容形式层出不穷，不断地出爆款，其实这个两周前有出过教程--用这个AI，把视频翻译成30+种语言，丝滑程度，随时能把生意做到全世界

视频翻译语言

神奇的 OuteTTS - 0.1 - 350M：用几秒钟音频克隆声音的黑科技！

2、独特的音频处理三步法音频标记化（Audio tokenization）使用 WavTokenizer 对音频进行处理，每秒可处理 75 个标记

OuteTTS-0.1-350M 音频

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

•目前当红的短视频推荐的形态可能会发生改变——从系统根据用户喜好推荐短视频，变成针对性生成短视频？

sora openai 视频生成

最强国产开源多模态大模型MiniCPM-V：可识别图片、视频，还可在端侧部署

总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。

minicpm 面壁

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

本次让我们基于Bert-vits2项目来克隆渣渣辉和刘青云的声音，打造一款时下热搜榜一的“青岛啤酒”鬼畜视频。

Bert-vits 语音

Roop参数说明，ROOP->StyleGAN演示！

因为这个视频刚好有很多张脸，然后又是多角度60帧4K的动态视频，所以我觉得非常适合拿来测试ROOP。

视频 StyleGAN

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

<1 2 345 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1