01
前言
Stable Cascade 模型最大的优点是
§
是能生成带有文字的图片,文字出错率相比以前模型少很多;
§
§
其次是硬件要求降低,甚至与sd1.5相比,该架构比之前版本实现了16倍的成本降低;
§
最后一大亮点是模型更加理解提示词语义。
§
这篇文章带大家详细了解Stable Cascade 模型。最后我整理打包了此模型,【Stable cascade模型+安装方法+工作流】整套放在了文章最后,伙伴们自行下载~
02
效果对比(Cascade 模型与SDXL模型)
左边使用Cascade模型出的效果图片
右边使用SDXL模型出图效果:
data:image/s3,"s3://crabby-images/fff73/fff73a0f8a6dd0bea3284231df983f775fe0cf6f" alt="IMG_256"
data:image/s3,"s3://crabby-images/ca42e/ca42e9b34d55126ea225231b6c7f89cda240a067" alt="IMG_257"
提示词:
text“stable”,Made from green shrub leaves,
data:image/s3,"s3://crabby-images/46418/464186531cb95d55b7e0990105ba21922362d3a0" alt="IMG_258"
data:image/s3,"s3://crabby-images/c01a9/c01a96291354ab6291bea644a39b8134cdff68b2" alt="IMG_259"
提示词:
text“stable”, The text is made of colorful energy.
data:image/s3,"s3://crabby-images/01569/01569e8e2eda66975fc0d34cf809a7d8d582d55d" alt="IMG_260"
data:image/s3,"s3://crabby-images/a765e/a765e027047874cd539d52839b2413a35c2354fa" alt="IMG_261"
提示词:
A cute cat
data:image/s3,"s3://crabby-images/3f9c2/3f9c26e2e10d75972106e2e8b215828c14572ae7" alt="IMG_262"
data:image/s3,"s3://crabby-images/df8b4/df8b48e65df08765a022dc412bf0105f33f8b8dc" alt="IMG_263"
提示词:
a cat eating a piece of cheese
data:image/s3,"s3://crabby-images/daeda/daeda40ae21d3ac9668021294253fb340e2f8173" alt="IMG_264"
data:image/s3,"s3://crabby-images/bc350/bc3502027c39033e0b33150a941d8715365c6fb7" alt="IMG_265"
提示词:
A high-definition full body photo of a beautiful Asian
girl in a summer park,full-size photograph,full-size
photograph
通过以上的图片,小伙伴更喜欢哪种模型出的效果呢~
根据官方给到的评估结论,在几乎所有比较中,Stable Cascade 在理解提示词语义方面和美观质量方面都表现最好。
data:image/s3,"s3://crabby-images/33323/33323ec2c03e05d6e318219c66c18d19ef2ebe5f" alt="IMG_266"
Stable Cascade 模型和其他模型的数据对比
03
Cascade模型是什么?
Cascade模型与之前的sd模型相比,主要区别是可以在更小的潜空间中工作。
潜空间可以简单理解为ai计算生成图片的区域,潜在空间越小,推理速度就越快,训练成本也就越低。
之前的sd模型如果想要生成一张1024*1024的图片,在潜空间的编码为128*128,使用的压缩因子为8,可以简单的理解为1024*1024的图片除以8(压缩因子)等于在潜空间的编码大小128*128。
而Stable Cascade 的压缩系数为 42,这意味着可以将 1024x1024 图像,在潜空间的编码为 24x24,这样就可以使用更小的潜空间尺寸,并且实现清晰的图像输出。甚至与sd1.5相比,该架构比之前版本实现了16倍的成本降低。
因此,这种模型非常适合快速的生成高质量图片。并且当前已知的扩展(如微调、LoRA、ControlNet、IP 适配器、LCM 等)也可以通过此方法实现。
04
Cascade的文件结构
data:image/s3,"s3://crabby-images/d0fb2/d0fb24e15358f7a41c89fbde953703a9207767dd" alt="IMG_267"
Stable Cascade 模型逻辑流程图
1.Stable Cascade由三个模型组成
Stage A、Stage B和Stage C,代表级联生成图像。
【级联】是指多个系统、设备或组件按照一定的顺序依次连接起来,形成一个整体,其中前一个系统、设备或组件的输出作为后一个的输入。因此得名“Stable Cascade”。
2.Stable Cascade如何级联运行
A 阶段和 B 阶段用于压缩图像,类似于stable diffusion中
VAE 的工作。然而,通过这种设置,可以实现更高的图像压缩。此外,阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏。
比如输入提示词“鳄梨形状的扶手椅”,就会进入到第一步潜在的生成器,并且使用stage C模型生成较小的潜在图像,生成完成后,会进入到stage B和stage A,对生成的潜在图像内容还原到像素空间。
data:image/s3,"s3://crabby-images/e3b28/e3b28911b0247b7c6fb2f6b464d08c1578c65509" alt="IMG_268"
Stable Cascade 模型输入提示词后的生成流程
05
使用Cascade模型的流程和工作流搭建
下载模型
1.模型下载分为两个部分:Cascade模型+clip模型;
2.cascade模型又分为stageA,stageB,stageC,官方对stage C和stage B分别提供了两个版本,每个模型只需要下载其中一个即可;
3.其中stage C 提供 10 亿和 36 亿参数版本,官方强烈建议使用 36 亿版本,生成的图像会有更加有细节。
Stage B 的两个版本分别达到 7 亿和 15 亿个参数。15 亿擅长重建微小而精细的细节。
4.最后,Stage A 包含
2000 万个参数,只有一个版本直接下载默认版本的即可。
如果你的电脑性能足够,当前建议直接下载较大文件体积的模型,能够获得更好的结果。
clip模型在text_encoder文件夹,只有一个版本,下载model.safetensors模型即可。
这些模型我也打包好了,放在文章的最后,可以直接下载使用。
安装模型
将stage C和stage B这两个模型放置到ComfyUI根目录\ComfyUI\models\unet文件夹中。
data:image/s3,"s3://crabby-images/386d9/386d9e589ec166019cf7ee24e941a85f88f0c2a0" alt="IMG_273"
stage C和stage B这两个模型放置的文件位置
stage A模型放置到ComfyUI根目\ComfyUI\models\vae文件夹中
data:image/s3,"s3://crabby-images/3e422/3e4220562fa1a4c66ad8adce1e28d0750a1cc6fd" alt="IMG_274"
stage A模型放置的文件位置
最后将clip模型放置到ComfyUI根目录\ComfyUI\models\clip文件夹中,这样使用cascade的模型安装也完成了。
data:image/s3,"s3://crabby-images/fb1e5/fb1e5e1ab68eef3e3fcfc9fb05272a9b646636ee" alt="IMG_275"
clip模型放置的位置
更新Comfyui版本
将comfyui更新到最新版本即可,官方将需要的模块已经同步进模型包了,
comfyui的更新方法,打开秋葉的启动器,具体怎么将秋葉启动器安装到官方的comfyui包中,可以参考这条视频的方法。
【设计师学Ai】哔哩哔哩搜索账号可看
一分钟教你使用秋葉启动器对Comfyui进行升降版本,版本管理:
https://www.bilibili.com/video/BV1Hg4y1Z7jX/?spm_id_from=333.999.0.0&vd_source=dc3d11f39507747c7c5bdabc3c1bf2c5
点击“版本管理”-右上角的“一键更新”按钮,即可将comfyui更新到最新版本。
data:image/s3,"s3://crabby-images/0cc3a/0cc3a0f92c61210db7c6a0284ce618ef750330e8" alt="IMG_278"
秋葉启动器安装到官方的comfyui包,进行一键更新
工作流搭建
拿到官方更新的cascade工作流之后,工作流应该会默认安装好这四个模型,你也可以点击模块上的模型加载位置检查模型是否加载完成。
data:image/s3,"s3://crabby-images/c2ad6/c2ad6f7ca9f943a304390100b544f3864897822f" alt="IMG_281"
四个模型安装位置
并且需要注意load clip模块上,模型的种类是否选择的是“stable_cascade”,并且加载的是刚刚下载的clip模型,你也可以给这个clip模型修改一下名称,例如“cascade_clip_model”这样就不会与其他的clip模型混淆。
data:image/s3,"s3://crabby-images/51ff4/51ff4f1467706b18ab2c3deda961d6798ccaa300" alt="IMG_282"
确定模型种类的位置,千万别混淆了
完成以上设置之后,就可以填写提示词,进行图像生成了。
Cascade模型效果展示
文字相关:在6个及以下字母的单词生成的准确率非常高,准确率能达到80%。但是超出7个字母后,想要直接生成拼写无误的单词比较困难,准确率在20%左右。
文字效果如下:
data:image/s3,"s3://crabby-images/cd258/cd258d7ebc765fa35d0445cc1ebc3fd4e039751a" alt="IMG_285"
data:image/s3,"s3://crabby-images/ebbde/ebbde64ffcf9d7952cce4bacc4b44dc16c113837" alt="IMG_286"
data:image/s3,"s3://crabby-images/59e44/59e44866316251fe24233ac0579d425313676779" alt="IMG_287"
data:image/s3,"s3://crabby-images/c5b86/c5b86834d8b3de2338c3d0ce50b418bd0fe78762" alt="IMG_288"
data:image/s3,"s3://crabby-images/d1caa/d1caa46173c01f700928b4a19ae8327209269ab8" alt="IMG_289"
data:image/s3,"s3://crabby-images/5624e/5624e828845f65b7f55d171f49b434ee8aa72a86" alt="IMG_290"
data:image/s3,"s3://crabby-images/a518b/a518b3333bb4f71a7ff2bc2dc5733c3c9d8bb72a" alt="IMG_291"
data:image/s3,"s3://crabby-images/030fa/030fa7ca174d83de4d3a1e6a87a432a95f48fb44" alt="IMG_292"
电影海报效果如下:
data:image/s3,"s3://crabby-images/faea2/faea22e41928b6e213c9cdfa352d1392c81ce0f7" alt="IMG_293"
data:image/s3,"s3://crabby-images/202c4/202c49385b1a9bdf328ff974790049ed554d9757" alt="IMG_294"
data:image/s3,"s3://crabby-images/b2ece/b2ece94d2c12cf574bbb356404c9cb847faec43a" alt="IMG_295"
data:image/s3,"s3://crabby-images/68476/684768e1e433d59f2b9bb85fda726cddeeba5524" alt="IMG_296"
data:image/s3,"s3://crabby-images/71aba/71abacc38ab1b1b8aa37a82f2764eaf8270d900a" alt="IMG_297"
data:image/s3,"s3://crabby-images/1b213/1b213078f447a4cd488128faae7b4f81de4cf84f" alt="IMG_298"
data:image/s3,"s3://crabby-images/b2686/b26867362f7cd64c5dc796423ce7384d9a788294" alt="IMG_299"
data:image/s3,"s3://crabby-images/b3b4b/b3b4b68876a18a255bb39131ce595866798a7951" alt="IMG_300"
06
文章末尾:最后总结
新模型发布:Stable Cascade 在研究预览中发布,采用三阶段方法,提高了质量、灵活性、微调能力和效率,同时进一步降低了硬件要求。
技术细节:Stable Cascade 包括三个阶段(A、B、C),通过分层压缩图像,实现了使用高度压缩的潜在空间达到显著的输出效果。
训练和微调:提供了针对不同阶段的训练和微调脚本,特别是Stage C,可以单独进行训练或微调,显著降低成本。
参数规模与效率:Stage C 提供10亿与36亿参数两种模型,Stage B 提供7亿与15亿参数两种模型,强调了效率和质量的平衡。
出自:https://mp.weixin.qq.com/s/2u6RYjZccgm_4x3Cxy_vAw