文章列表-AI魔法学院

文章列表

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

（ControlNet实现了根据提示词精准控制图像元素改变，如人物动作、图像结构等）根据给到的提示词，它仅改变视频的画风，而且是针对完整视频。

ControlNet

OCR终结了？旷视提出可以文档级OCR的多模态大模型框架Vary，支持中英文，已开源！

背后原理目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。

OCR 手写文字识别

Stable Diffusion

stable diffusion 远端跑图—— Api基础知识掌握

如果你想用手机或者电脑访问自己的服务器进行stable diffusion（以下简称sd）跑图，学会使用sd的api是必须的技能上个月做了安卓和苹果手机用远端sd进行跑图的几个demo，整体流程很简单

文生图 api

使用python调用comfyui-api，实现出图自由

使用python调用comfyui-api，实现出图自由 1.

comfyui 工作流

Stable Diffusion

【Stable Diffusion】SD迎来动画革命，AnimateDiff快速出图

参数可以按照正常出图的思路设置，尺寸512x512，根据电脑配置量力而行。

文生图开源模型

Stable Diffusion

AnimateDiff：一篇文章教你学会用Stable Diffusion制作GIF动图

这是一个AnimateDiff介绍教程，这个工具可让您使用Stable Diffusion创建令人惊叹的 GIF 动画，这是目前为止最好的文本生成视频（Text-to-video）人工智能工具之一。

AnimateDiff 视频训练

DALL-E 3 不只是文生图！10 个案例颠覆认知

你只需要告诉 DALL-E 3 你的想法，并让它把想法可视化即可。

DALL-E 3 文生图

图解大模型训练之：张量模型并行(TP)，Megatron-LM

则每次forward的过程如下：为画图方便，图中所绘是b=1时的情况。

开源模型

StableDiffusion

AI绘画由入门到精通：StableDiffusion精讲课程

这款软件以其独特的优势和无限的可能性，为艺术家、设计师乃至广大创意爱好者提供了前所未有的视觉表达工具。

SD 视频课程 AI绘画

OpenAI Sora视频生成模型技术报告中英全文+总结+影响分析

我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。

sora openai 视频生成

通俗易懂地解释OpenAI Sora视频生成的特点有哪些？它与此前的Runway Gen2、Pika有什么区别？以及缺点是什么？

另外值得一提的是，OpenAI Sora模型还可以直接生成图片，也就是说，它是一个以视频生成为核心的多能力模型。

sora 视频生成

腾讯悄悄开源混元版「Sora」，这就是开源领域的No.1。

你就感觉，像在看电视剧。

sora 视频生成

SD的老舅ComfyUI来了，节点式工作流，分部控制出图

方便大家看，我把板块调整为竖版，有一定SD基础的同学可以看到这其实就是SD的界面板块打散： ComfyUI有以下特点：优点： 1.上限高，更适合复杂长线的大型工作 2模块化工作流 3.可视化

文生图 comfyui

好看的图片不知道怎么写提示词？用AI读出来

所谓反推，就是能够根据图片，倒推出这张图片的提示词。

文生图

阿里&字节发表VividTalk，只需单张照片即可根据音频生成栩栩如生的人物说话头像视频

简介一次性音频驱动的说话头生成旨在通过音频作为输入信号来驱动任意面部图像，并具有广泛的应用场景，如虚拟化身、视觉配音和视频会议。

VividTalk 视频

<...4 5 6 789 10 11 12 13 ...>

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1