文章列表-AI魔法学院

文章列表

四木测评｜让教父唱《野狼disco》、恶搞《甄嬛传》，火遍全网的阿里明星项目EMO正式开放

不管是唱歌视频，还是讲话视频，只要提供一张肖像照片，外加一段音频，算法就会自动生成一段口型完全能对上、画面生动的视频出来。

EMO 阿里全民演唱

ChatGPT+文字转视频工具，让1个人1天轻松生产100条原创视频（内附全部工具）

今天给大家分享一个 ChatGPT+文字转视频AI工具，批量跑原创视频的玩法。

生成式AI

解读wav2lip：探究语音驱动唇部动作的技术原理！

具体来说，wav2lip的训练流程如下：首先，提取音频特征，将音频特征与人脸图像进行配对，形成一个音频-图像对，然后训练专家音频和口型同步判别器。

wav2lip 语音

国产视频制作之光-可灵：提示词大全整理

🍎图生视频建议一次一个词，如托腮，抬头。

可灵 kling 视频

AI绘画：InstantID Win11本地安装记录！

Windows11+Conda+git 1.克隆代码打开CMD工具，通过CD命令进入到指定目录，然后克隆代码。

InstantID Win11 安装

AI创作｜如何通过GPT进行漫画视频的故事改写

随着AI绘画在今年爆火后，通过AI的方式制作的漫画类小说推文视频在短视频平台中爆发式增长。

生成式AI

Stability AI推出视频生成模型Stable Video Diffusion

Stability AI近日推出了名为Stable Video Diffusion的视频生成模型，该模型基于该公司现有的Stable Diffusion文本转图像模型，能够通过对现有图像进行动画化生成视频

Video 视频创作 SD

用so-vits-svc-4.1进行音色转换的极简教程

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

声音 sovits

Stable Diffusion

【Stable Diffusion】高效率视频转AI动画！EbSynth插件全流程操作

最近小朋友开始学习跑酷，这段动画是我用他上课时候的一段练习视频制作的。

AI编程 EbSynth 动画

免费的文本生成视频解决方案：AnimateDiff下载-可用于StableDiffusion的webui以及ComfyUI

AnimateDiff 是一个基于 Stable Diffusion 模型的文本生成视频插件，它通过控制模块影响图像生成过程，使得生成的图像序列具有与训练视频剪辑相似的特征。

视频生成文生视频

「语音转换新速度」— 探秘Whisper JAX的70倍速提升

这意味着它能够同时处理多个音频片段，大幅缩短了从语音到文本的转换时间。

Whisper 语音识别

用so-vits-svc-4.1进行音色转换的极简教程！

这里要求切割后的音频长度在5-15秒左右，不能太长或太短。

so-vits-svc 音色转换教程

RAG 2.0来了，它能成为生产落地的福音吗？

RAG 2.0方法就是克服这样的局部优化办法，通过将预训练、微调和对齐所有组件形成一个统一系统，通过反向传播同时优化语言模型和检索器，以最大化系统性能。

RAG 大模型

OpenAI视频模型Sora的推理生成成本多高？

由于 Diffusion 模型训练 text to video 需要高质量的标注视频，因此我们可以估计 Sora 训练的视频量级为 1亿分钟左右。

Sora 推理算力

被高估的Pika，被低估的多模态AI

例如，在医疗领域可以通过结合图像、录音和病历文本，提供更准确的诊断和治疗方案；在交通领域，结合图像和传感器数据，带来更智能、更安全的自动驾驶体验；在教育领域，将文本、声音、视频相结合，呈现更具互动性的教育内容

大模型多模态

<...3 4 5 678 9 10 11 12 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1