文章列表-AI魔法学院

文章列表

大模型落地“诸神之战”，场景玩家先杀出重围了

从Stable Diffusion、Midjourney到DragGAN，AI生成图像已经能初步保障丰富性、美观性和可控性，并大幅提升了设计师的工作效率。

大模型文生图

2024，智谱如何更快？

本次，GLM-4的多模态能力也实现了明显提升，文生图和多模态理解都得到增强，CogView3效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALLE3。

GPT-4 大语言模型

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

目前，在隐空间编/解码上，主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩，但这对于视频而言存在明显的信息冗余。

可灵快手文生视频

ChatGPT 的对话框过时了？这款 AI 产品提供了一种很新的聊天方式

生成图片模式支持的模型不多，目前只有 Stable Diffusion 和 DALL·E 3，之前支持 Midjourney，但现在不可选了。

ChatGPT 聊天

爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

这里选择标记CLIP分数和标签相似度的最大乘积对应的类词 02 | 实验结果 2.1 Setup 实现细节为了生成更逼真的人体肖像，采用SDXL模型stable-diffusion-xl-base

PhotoMaker 文生图

万字长文-大语言模型指令调优综述

5.2 多模态指令微调模型 InstructPix2Pix (983M) (Brooks 等人，2022)是一个条件扩散模型，通过Stable Diffusion(983M) (Rombach

大语言模型

Sora物理悖谬的几何解释

这就是扩散生成模型的原理（diffusion model）。

Sora 解释

微软研究团队：Sora核心技术及未来机会研究报告-中英对照版

另一个例子是 Stable Diffusion，这是一个适应性强、使用方便的多功能文本到图像 AI 模型。

sora 论文

AI大模型LLM可以帮助企业做什么？

第8名 Midjourney 和 36名 Stable diffusion 都是图像生成AI。

大模型

微软对 Sora 进行了逆向工程分析，揭秘 Sora 的秘密

另一个例子是 Stable Diffusion，这是一个适应性强、使用方便的多功能文本到图像 AI 模型。

Sora 微软

清华系17人，撑起中国大模型创业半壁江山

生数科技联合创始人兼CEO唐家渝还是孙茂松教授的学生，他此前在接受采访时谈道，生数科技当前所训练的大模型图像生成效果已经超过Stable Diffusion，预计将于年内赶超Midjourmy。

大模型

请收好这12种Prompt编写模式，让不可靠的模型生成可交付的可靠结果

Negative Prompt 在 Stable Diffusion 被广泛使用，相似的，在 ChatGPT 等AI模型中，我们也会经常使用到。

prompt

GitHub狂飙3万star的LLM公开资料 - 大模型入门教程

多模态模型：这些模型（如CLIP,Stable Diffusion, 或LLaVA）处理多种类型的输入（文本、图像、音频等），并使用统一的嵌入空间，这解锁了像文本到图像这样的强大应用。

LLM 大模型 GitHub

【全文翻译】微软166页论文解读 GPT-4V：多模态大模型的黎明

在这里，我们展示了如何利用 GPT-4V 评估基于文本到图像生成给定提示对齐的生成图像，灵感来自 RL-Diffusion [17]。

多模态大模型 GPT-4V 文生图

最新最全的开源中文大语言模型列表

VisCPM基于百亿参数量语言大模型CPM-Bee（10B）训练，融合视觉编码器（Q-Former）和视觉解码器（Diffusion-UNet）以支持视觉信号的输入和输出。

大模型

<...11 12 13 14 15 16 17 181920 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1