文章列表-AI魔法学院

文章列表

腾讯出品！开源AI数字人框架！号称可以不限时长

今天，介绍一个开源创新的虚拟人视频生成框架：MuseV MuseV是由腾讯音乐娱乐的天琴实验室开源，MuseV专注于生成高质量的虚拟人视频和口型同步，能够制作出具有高度一致性和自然表情的长视频内容

MuseV 视频数字人框架

动画制作工具AnimateDiff用法详解

AnimateDiff 使用Stable Diffusion模型将文本提示转换为视频。

AnimateDiff 视频训练

阿里最近推出AI项目的动作太过频繁，脑子跟不上了，事出反常必有妖，盘点一下

阿里动作太过频繁，就我的脑海回忆，推出了挺多东西的，效果还都不错，今天盘点下都有哪些。

阿里大模型

SadTalker数字人常见问题3

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。

SadTalke

除了深度换脸、模拟配音，还能口型匹配的AI软件出现了

据海外媒体报道，上周一款名为LipDub 的翻译软件正式发布，这款AI程序可以让视频创作者在几分钟内使用不同语言进行交流。

AI

阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

人物动作视频生成框架Animate Anyone可基于单张图和动作序列，输出稳定、可控的人物动作视频；人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象；人物视频角色替换框架Motionshop

通义文生视频

300天里，我帮你踩遍了AIGC创业的各种坑

似乎借助AI的力量，个体也能创造以往难以想象的作品：只要抄写提示词，剩下的事交给AI就行，人人都是超级个体，创业/赚外快近在咫尺。

AIGC 创业

AI虚拟主播数字人技术实现Wav2Lip

主要通过将两个不相关的人的视频、音频，采用Wav2Lip技术，最终得到一个完整的视频文件，且视频的人物口型与音频内容一致。

数字人视频

探索Sora的魔法世界：功能展示、原理解析、未来市场影响大猜想！

Sora也可以通过其他输入进行创作，例如预先存在的图片或视频。

视频生成 sora

[Midjourney]人物镜头拍摄视角大全

掌握常用的10种拍摄视角，教你绘画出好的人像。

视图视角构图

基于 OpenAI Whisper 模型的实时语音转文字工具

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】什么是 WhisperLive？

WhisperLive 音频开源软件

【开源项目】Flow Matching 语音合成

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源conditional

音视频 Flow Matching

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。

语音 HeyGen

【AI科技大创意】2024年人工智能10大趋势

此报告咨询了超过 40 家跨越 a16z 投资组合的合作伙伴，探讨他们认为会在 2024 年引领创新浪潮的重大理念。

人工智能趋势

生成式AI领域拓展！MetaAI开源AudioCraft：一个支持AudioGen、MusicGen等模型的音频生成开发框架

在过去的几年里，我们看到了AI在图像、视频和文本生成方面的巨大进步。

开源模型

<...2 3 4 567 8 9 10 11 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1