先锋官有话说:
产品名称: InstantID
总体评价: ★★★★☆
易用性:
★★★★☆
功能性:
★★★★☆
创新性:
★★★☆☆
推荐功能: AI人像生成
20%杨幂+80%泰勒·斯威夫特到底长啥样?
最近,一款名为InstantID的新项目进行了尝试。
它与阿里的妙鸭相机、腾讯的PhotoMaker有异曲同工之妙,只需上传一张照片,无需训练,不仅秒出各种风格的个人写真,还可以实现“人脸融合”。
-1-
产品介绍
InstantID 是一种基于扩散模型的图像生成技术,它专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。用户只需提供一张面部图像,InstantID 就能在多种风格中生成个性化的图像,同时确保高保真度。
-2-
主要特点
个性化图像合成:用户可以基于一张面部图像生成具有不同姿势或风格的个性化图像,同时保持高保真度。
身份特征保留:在生成新图像时,InstantID能够精确地保留原始图像中的人脸特征,如表情、年龄和身份等。
风格迁移:InstantID可以将一个人的面部特征转移到不同的艺术风格或背景中。
新视角合成:通过InstantID,可以生成同一人物的新视角图像,即使原始图像中没有这些视角。
身份插值:InstantID能够实现不同人物特征的平滑过渡,例如在两个不同人物之间进行面部特征的插值。
多身份合成:在复杂的场景中,InstantID可以同时处理多个人物,生成包含多个角色的图像。
兼容预训练模型:InstantID作为一个插件,可以无缝集成到流行的预训练文本到图像扩散模型中,如SD1.5和SDXL,而不需要额外的微调。
-3-
体验地址
论文地址:
https://arxiv.org/abs/2401.07519
代码地址:
https://github.com/InstantID/InstantID
项目地址:
https://instantid.github.io
魔搭社区:
https://modelscope.cn/studios/instantx/InstantID/summary
-4-
保姆级指南
第一步:点击上述魔搭社区链接,进入操作页面。
第二步:上传人物照片。对于多人图像,该工具只检测最大的脸部。确保脸部不要太小,并且没有明显的遮挡或模糊。例如,小编上传了一张苏菲·玛索的照片。
第三步:(可选)上传另一个人的图像作为参考姿势。如果没有上传,系统将使用第一张图像来提取姿势。如果用户在第二步中使用裁剪过的脸部,建议上传它来提取新的姿势。
第四步:(可选)输入文本提示词并选择风格。系统给出了水彩画、黑色电影、霓虹灯、丛林、火星、线稿等8种风格。例如,小编写的提示词是“A woman,hold roses”,风格选的是“Snow”。其他参数都使用默认。
第五步:单击“Submit(提交)”按钮开始自定义。最终生成效果如下:
小编还整出一张舒淇和莫妮卡·贝鲁奇的混搭照:
还让张曼玉“换”了个性别:
以下是生成的各种风格的照片:
(风格:水彩画)
(风格:Mars)
(风格:Film
Noir)
( 风格:Film Noir)
(风格:No
style)
-6-
使用技巧
1.如果对相似度不满意,可以增加controlnet_conditioning_scale (IdentityNet)和
ip_adapter_scale (Adapter)的权重。
2.如果生成的图像过饱和,请减小ip_adapter_scale。如果不起作用,请减少
controlnet_conditioning_scale。
3.如果文本控制不符合预期,请减小 ip_adapter_scale。
4.找到一个好的基础模型总是会有所作为。
-7-
是否免费
魔搭社区免费,无需魔法。
-8-
工作原理
InstantID的工作原理包括三个关键的组成部分:ID嵌入、图像适配器和IdentityNet。
ID嵌入:InstantID首先从提供的参考面部图像中提取身份嵌入(ID embedding)。这个嵌入包含了面部图像的身份特征,如表情、年龄和身份等。通过这种方式,InstantID能够理解和保留原始图像中的人脸特征。
图像适配器:InstantID使用图像适配器来支持图像作为视觉提示。这个适配器采用了解耦的交叉注意力机制,使得在生成新图像时,可以有效地结合参考面部图像的身份特征和所需的风格或背景。这种机制确保了在生成个性化图像时,身份特征得到保留。
IdentityNet:IdentityNet是InstantID的核心组件之一,它用于编码参考面部图像的详细特征,并结合额外的空间控制。这使得InstantID能够生成具有不同姿势或风格的新图像,同时保持高保真度和身份特征的精确度。
-9-
开发者
InstantID这款工具是由中国的InstantX Team团队开发。作为团队开发者之一,王浩帆现在是小红书的算法工程师,之前曾在快手、OpenMined、RealAI、地平线机器人以及中国科学院软件研究所实习或工作过。
出自:https://mp.weixin.qq.com/s/jNiWIzCugqOAr-o24_jPgA