文章列表-AI魔法学院

文章列表

数字人起飞！字节Loopy对口型功能在即梦上线可根据语境匹配表情和情绪

以往，对口型视频往往存在一个通病，那就是看似嘴型对上了，但总感觉这个声音不是他发出来的，以至于大家看对口型视频的时候，会有一种割裂感。

Loopy 视频

通过声音生成逼真的全身形象？！Meta开源AI工具：audio2photoreal

这是一个由Facebook研究院开发的技术，可以根据音频生成逼真的人物视频！

audio2photoreal 开源工具

【语音识别】OpenAI语音力作Whisper

与Wav2Vec 2.0等前作不同，以往的模型都是在未标注的音频数据上预训练的，而 Whisper 是在大量的已标注音频转录数据上预训练的。

语音转文字 whisper

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。

可灵快手文生视频

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

Sora生成的视频与此前其它平台生成的视频到底有哪些区别？

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

而这一次的项目，就是被N多人期待了很久的，腾讯混元视频生成模型。

sora 视频生成

Insanely Fast Whisper：超快的Whisper语音识别脚本

通过使用Transformers和Optimum技术，可以在不到10分钟内转录300分钟（5小时）的音频。

音频 Whisper

AI音乐热潮下，“神曲工作室”率先失业

她觉得，AI音乐可能会对抖音等平台上批量产出的歌曲产生较大影响，甚至不排除视频平台自主引入AI作曲机制，影响由第三方负责的“神曲”创作的生存空间。

音乐音频

网易（TTS）EmotiVoice：开源语音合成，支持2000多音色

你是否曾经想过，如果你能用自己喜欢的声音来朗读任何文本，那该多好？

EmotiVoice 语音合成

一文彻底搞懂多模态 - 多模态推理

这两种模态的信息可以是图片和文本、视频和语音等。

多模态推理大模型

Sora懂不懂物理世界？

Sora的基本原理 Sora的训练集为短视频集，每个样本是一个短视频，Sora将其编码到数据空间进行降维，然后在隐空间中将特征向量切割成补丁，加上时间顺序，构成时空补丁，亦即时空令牌（time-space

文生视频视频生成 sora

腾讯开源的数字人MuseTalk到底行不行？

MuseTaIk是由腾讯团队开发的先进技术，它是一个实时高质量的音频驱动唇部同步模型。

MuseTalk 数字人音频

15种ChatGPT高频用法

本文列出了15个可以高频使用chatgpt以及其他大模型的场景，希望对您会有启发

大模型效率

爆火的“女孩的一生”，plus版教程它来了

嘿，动画和视频制作的小伙伴们，今天我们来聊聊怎样用animatediff和LCM（Lower Complexity Model）来制作超炫酷的视频。

动画视频 AnimateDiff

<1 2 3 456 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1