一键AI换脸!小红书和北大合作的InstantID
AI魔法学院
2024-05-17
分享海报

用了大半天的时间,给我的comfyUI安装了几个插件。

一个是著名的难装的ReActor,这个耗时非常久,主要是几个模型的目录非常分散,从错误提示里找了很久。

随着Face ID和InstantID的出现,这个换脸插件基本不用了,我就不多讲了(之前介绍过WebUI下的用法)。

我之所以要装,主要还是强迫症,好几个工作流还用ReActor。

今天重点讲一下instantID,我之前介绍了WebUI下的使用方法。但这个插件对系统资源消耗比较大,9G显存起步,我的显卡是12G的3060,在WebUI模式下,也要开启低显存模式,效果不是最佳。

comfyUI可以优化节点的方式使用,减小显存使用。

instantID是小红书、北大等团队合作的结晶,在AI绘画AI视频领域,有大量的华人团队。即便是Sora团队里,也有华人。

所以我对中国在未来的AI时代能够稳稳的跟住,排名第二非常有把握。

很多人对中国的AI技术落后美国就开始哀嚎,这是没必要的。因为未来的科技发展,是缓慢的长期的,只要能跟上,就不用担心。

目前,在理论路线越来越清晰的情况下,卷应用才是正道。

InstantID 的工作原理可分为三个关键部分:

ID Embedding:团队利用预训练的面部识别模型代替 CLIP 来提取语义人脸特征,并使用可训练的投影层,将这些特征映射到文本特征空间,形成 Face Embedding,具有丰富的语义信息,包括如面部特征、表情、年龄等,为后续的图像生成提供了坚实的基础。

Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图像和文本能够独立地影响生成过程,从而在保持身份信息的同时,允许用户对图像风格进行精细控制,实现「双赢」。

IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。在 IdentityNet 中,生成过程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图像模型保持冻结以确保灵活性。

在实际的图像生成过程中,InstantID 首先会接收到用户的文本提示和面部图像。然后通过 ID Embedding 提取关键信息,接着 Image Adapter 将这些信息与文本提示融合。IdentityNet 会根据这些融合后的信息生成图像。

整个过程是自动化的,用户不需要进行任何额外的微调或训练,只需等待二十几秒,就能得到一个既符合文本描述又保留个人身份特征的定制图像。

我们看看这个插件如何在comfyUI下安装。

一、在comfyUI管理器安装节点

搜索instantID,找到ZHO-ZHO-ZHO大神的插件。

 

然后进行安装。

这个插件需要大量的模型,这里装完只是第一步。

二、相关模型安装

1、IP-Adapter模型

IP-Adapter是腾讯团队开发的适配器模型,能和ControlNet很好的组合使用,控制人物的姿态。

共有两个,分别是SD1.5和SDXL使用

拷贝至ComfyUI\models\instantid

ip-adapter.bin

ip-adapter_sdxl.bin

需要注意的是,有些SDXL大模型因为训练集的原因,也需要使用ip-adapter.bin,遇到报错提示时可以更换一下IP-Adapter模型。

2、ControlNet模型

拷贝至ComfyUI\models\controlnet

control_instant_id_sdxl.safetensors

3、人脸识别和分析模型

antelopev2模型,安装路径:ComfyUI\custom_nodes\ComfyUI_InstantID\models\antelopev2

这组模型和其他换脸插件的insightface模型是通用的,但多两个,insightface模型安装路径:ComfyUI\models\insightface

安装完这些模型,最基本的功能就可以跑起来了,如果你的显卡小于16G,就不用再装其他模型了,因为跑不动!

三、创建基础工作流

添加节点--InstantID--Apply InstantID。

 

节点创建好后,分别和大模型、采样器连接。

 

InstantID处,拖出Load InstantID Model,模型选择ip-adapter.bin(或ip-adapter_sdxl.bin)。

insightface处,拖出InstantID Face Analysis,建议选择CPU。

control_net处,拖出ControlNet模型,选择control_instant_id_sdxl.safetensors

image处连接加载图片,此处连接的是脸部照片。

正反提示词分别接到提示词。

image_kps处连接加载图片,此处连接的是参考姿势,如半身、侧身,生成的图片会在提示词的基础上,参考本图片的姿态。

放一张完整的工作流(基础版)。

 

四、开始出图

1、一个特别像仙女姐姐的美人鱼

提示词:

1girl, underwater, afloat, soft natural lighting, orange hair, off-shoulder dress, aesthetic, film grain texture,analog photography aesthetic,visual storytelling, dynamic composition,looking at viewer,eye contact,

 

 

2、一个很像范爷的女生

提示词:

26 y.o. alt girl, eyeshadow, long eyelashes, (messy hair:0.6), film photography aesthetic, long black hair, dynamic composition, skin texture, full body, sharp focus, hard shadows

 

五、模型下载

https://www.123pan.com/s/ueDeVv-WYuI.html

 

 

 

 

出自:https://mp.weixin.qq.com/s/svkZPfoxarnTr5oOGvluqg

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip