文章列表-AI魔法学院

文章列表

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频

Video 视频创作 SD

字节跳动推出MagicVideo-V2：引领AI视频生成新时代。

你是否曾想过，仅凭一段文字就能生成一段高清、流畅的视频？

MagicVideo-V2 视频生成

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

我们将Sora与一个版本的模型进行了比较，该模型将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。

sora openai 视频生成

Wunjo AI: 合成和克隆英语/俄语/中文语音,实时语音识别,深度换脸和唇动合成,通过文本提示更改视频,分割和修饰

无论您是钻研语音合成、制作 Deepfake 动画、通过文本提示绘制稳定扩散视频还是视频制作，Wunjo AI 都能满足您的需求。

AI语音克隆实时语音识别

语音、视频转文字神器：开源whisper介绍

Windows using Scoop (https://scoop.sh/) scoop install ffmpeg 模型说明有五种模型大小可供选择，其中除了large模型外还提供了只支持英文的版本

人工智能大模型 wisper

ChatGPT+文字转视频工具，让1个人1天轻松生产100条原创视频（内附全部工具）

今天给大家分享一个 ChatGPT+文字转视频AI工具，批量跑原创视频的玩法。

生成式AI

大模型文本生成——解码策略（Top-k & Top-p & Temperature）

在自然语言任务中，我们通常使用一个预训练的大模型（比如GPT）来根据给定的输入文本（比如一个开头或一个问题）生成输出文本（比如一个答案或一个结尾）。

大模型

超越Animate Anyone! 南加大&字节提出MagicPose，不需任何微调就可生成逼真的人类视频

南加州大学&字节提出MagicPose，一种新颖有效的方法，提供逼真的人类视频生成，实现生动的运动和面部表情传输，以及不需要任何微调的一致的野外零镜头生成。

MagicPose 视频

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

它通过先进的音频到3D网格映射技术和网格到视频的转换技术，实现了高质量、逼真的音频驱动的说话头像视频生成。

VividTalk 视频

【NLP技术分享】文本生成评价指标的进化与推翻

前言文本生成目前的一大瓶颈是如何客观，准确的评价机器生成文本的质量。

开源模型

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

当然，除了模型自身的能力，用户输入的文本提示词也对最终生成的效果有着重要影响。

可灵快手文生视频

炸裂！百川开源第1个7B多模态大模型 Baichuan-Omni | 能够同时分析图像/视频/音频/文本

其中一部分数据来源于书籍和论文，经过解析生成交错图像-文本、OCR数据和图表数据。

Baichuan-Omni 多模态大模型

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践

它是在本来已经极其强大的Vits项目中融入了Bert大模型，基本上解决了VITS的语气韵律问题，在效果非常出色的情况下训练的成本开销普通人也完全可以接受。

Bert-vits 语音

Sora懂不懂物理世界？

生成视频的物理问题，并总结如下：首先，用概率统计的相关性无法精确表达物理定律的因果性，自然语言的上下文相关无法达到偏微分方程的精密程度；其次，Sora无法判断全局的合理性。

文生视频视频生成 sora

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

有很多童鞋似乎对这些问题依然有疑问，本文将以通俗的语言解释Sora的独特之处。

sora 视频生成

<123 4 5 6 7 8 9 10 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1