简介
文本到图像生成技术在合成基于文本提示的逼真人类照片方面取得了显著进展。然而,现有的个性化生成方法无法同时满足高效率、ID保真度以及灵活的文本可控性三个要求。而腾讯的 PhotoMaker则可以做到。它主要通过堆叠ID嵌入方式编码任意数量的输入ID图像,以保留ID信息。这样的嵌入作为统一的ID表示,不仅可以全面封装同一输入ID的特征,还可以容纳不同ID的特征,以便于后续整合。
方法
我们的方法将几张具有相同身份标识的输入图像转换为堆叠的ID嵌入。这种嵌入可以被视为待生成身份标识的统一表示。在推理阶段,构成堆叠ID嵌入的图像可以来自不同的身份标识。随后,我们可以在不同的上下文中合成这些定制化的身份标识。
1. 我们分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
2. 我们通过合并相应的类别嵌入(例如,男性和女性)和每个图像嵌入来提取融合嵌入。
3. 我们沿长度维度连接所有融合嵌入,形成堆叠的ID嵌入。
4. 我们将堆叠的ID嵌入输入到所有交叉注意力层,以便在扩散模型中适应性地融合ID内容。
需要注意的是,虽然我们在训练时使用具有遮蔽背景的同一ID的图像,但在推理过程中,我们可以直接输入具有不同ID的图像而不产生背景扭曲,从而创建一个新的ID。
效果
重构化
我们展示了我们的PhotoMaker在基本提示下的生成能力。我们在每张图像下方展示了激发创造的提示。
将艺术作品/旧照片中的人物带入现实
通过将艺术画作、雕塑或某人的旧照片作为输入,我们的PhotoMaker可以将上个世纪甚至古代的人物带到当代,“为他们”拍摄照片。我们在每张图像下方展示了激发创造的提示。
风格化
我们的PhotoMaker不仅具有生成逼真人类照片的能力,而且还能在保留身份标识特征的同时实现风格化。我们在第一行展示了激发创造的提示。
改变年龄或性别
通过简单替换类别词汇(例如,男性和女性),我们的方法能够在保持原有身份的同时实现性别和年龄的变化。
身份混合
如果用户提供了不同身份标识的图像作为输入,我们的PhotoMaker可以很好地整合不同身份标识的特征,形成一个新的身份标识。
对于身份混合,PhotoMaker的方法可以通过控制输入图像池中身份图像的比例或通过提示加权的方法来调整合并比例。
首先,看一下PhotoMaker方法如何通过控制输入图像池中不同身份标识的比例来定制新的身份标识。
接着,PhotoMaker将与特定身份标识相关的图像的嵌入乘以一个系数,以控制其在新身份标识中的融合比例。
对比
与其他方法相比,PhotoMaker能够同时满足高质量和多样化的生成能力、有前景的可编辑性、高推理效率以及强大的身份保真度。
出自:https://mp.weixin.qq.com/s/YCakrsaanpT0At47OjnY-Q