本文介绍了作者在comfyUI上安装InstantID插件的过程,包括安装节点、相关模型,以及创建基础工作流和出图步骤。InstantID是小红书、北大等团队合作开发的AI绘画和视频插件,具有强大的面部识别和分析能力。作者还表达了对中国AI技术未来发展的信心,并介绍了InstantID的工作原理和模型下载地址。
用了大半天的时间,给我的comfyUI安装了几个插件。
一个是著名的难装的ReActor,这个耗时非常久,主要是几个模型的目录非常分散,从错误提示里找了很久。
随着Face ID和InstantID的出现,这个换脸插件基本不用了,我就不多讲了(之前介绍过WebUI下的用法)。
我之所以要装,主要还是强迫症,好几个工作流还用ReActor。
今天重点讲一下instantID,我之前介绍了WebUI下的使用方法。但这个插件对系统资源消耗比较大,9G显存起步,我的显卡是12G的3060,在WebUI模式下,也要开启低显存模式,效果不是最佳。
在comfyUI可以优化节点的方式使用,减小显存使用。
instantID是小红书、北大等团队合作的结晶,在AI绘画、AI视频领域,有大量的华人团队。即便是Sora团队里,也有华人。
所以我对中国在未来的AI时代能够稳稳的跟住,排名第二非常有把握。
很多人对中国的AI技术落后美国就开始哀嚎,这是没必要的。因为未来的科技发展,是缓慢的长期的,只要能跟上,就不用担心。
目前,在理论路线越来越清晰的情况下,卷应用才是正道。
InstantID 的工作原理可分为三个关键部分:
ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。
Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图像和文本能够独立地影响生成过程,从而在保持身份信息的同时,允许用户对图像风格进行精细控制,实现「双赢」。
IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。在 IdentityNet 中,生成过程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图像模型保持冻结以确保灵活性。
在实际的图像生成过程中,InstantID 首先会接收到用户的文本提示和面部图像。然后通过 ID Embedding 提取关键信息,接着 Image Adapter 将这些信息与文本提示融合。IdentityNet 会根据这些融合后的信息生成图像。
整个过程是自动化的,用户不需要进行任何额外的微调或训练,只需等待二十几秒,就能得到一个既符合文本描述又保留个人身份特征的定制图像。
我们看看这个插件如何在comfyUI下安装。
一、在comfyUI管理器安装节点
搜索instantID,找到ZHO-ZHO-ZHO大神的插件。
然后进行安装。
这个插件需要大量的模型,这里装完只是第一步。
二、相关模型安装
1、IP-Adapter模型
IP-Adapter是腾讯团队开发的适配器模型,能和ControlNet很好的组合使用,控制人物的姿态。
共有两个,分别是SD1.5和SDXL使用
拷贝至ComfyUI\models\instantid
ip-adapter.bin
ip-adapter_sdxl.bin
需要注意的是,有些SDXL大模型因为训练集的原因,也需要使用ip-adapter.bin,遇到报错提示时可以更换一下IP-Adapter模型。
2、ControlNet模型
拷贝至ComfyUI\models\controlnet
control_instant_id_sdxl.safetensors
3、人脸识别和分析模型
antelopev2模型,安装路径:ComfyUI\custom_nodes\ComfyUI_InstantID\models\antelopev2
这组模型和其他换脸插件的insightface模型是通用的,但多两个,insightface模型安装路径:ComfyUI\models\insightface
安装完这些模型,最基本的功能就可以跑起来了,如果你的显卡小于16G,就不用再装其他模型了,因为跑不动!
三、创建基础工作流
添加节点--InstantID--Apply InstantID。
节点创建好后,分别和大模型、采样器连接。
InstantID处,拖出Load InstantID Model,模型选择ip-adapter.bin(或ip-adapter_sdxl.bin)。
insightface处,拖出InstantID Face Analysis,建议选择CPU。
control_net处,拖出ControlNet模型,选择control_instant_id_sdxl.safetensors
image处连接加载图片,此处连接的是脸部照片。
正反提示词分别接到提示词。
image_kps处连接加载图片,此处连接的是参考姿势,如半身、侧身,生成的图片会在提示词的基础上,参考本图片的姿态。
放一张完整的工作流(基础版)。
四、开始出图
1、一个特别像仙女姐姐的美人鱼
提示词:
1girl, underwater, afloat, soft natural lighting, orange hair, off-shoulder dress, aesthetic, film grain texture,analog photography aesthetic,visual storytelling, dynamic composition,looking at viewer,eye contact,
2、一个很像范爷的女生
提示词:
26 y.o. alt girl, eyeshadow, long eyelashes, (messy hair:0.6), film photography aesthetic, long black hair, dynamic composition, skin texture, full body, sharp focus, hard shadows
五、模型下载
https://www.123pan.com/s/ueDeVv-WYuI.html
出自:https://mp.weixin.qq.com/s/svkZPfoxarnTr5oOGvluqg
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请加微信:skillupvip