Meta发布业界最强文生图模型CM3Leon，实力碾压Stable Diffusion、Midjourney

近日，Meta公司宣布开发出一款名为CM3Leon的文生图模型，该模型能够独力解决文本到图像和图像到文本的双向生成任务。

Meta表示：“在打造高质量生成模型的探索之路上，我们相信CM3leon在各类任务中的强大性能，正是迈向高保真度图像生成与理解的重要一步。像CM3leon这样的模型终将成为元宇宙中的创造力源泉与应用成果，我们也期待继续突破多模态语言模型的新疆界、未来将更多优秀模型呈现在大家面前。”

最近几个月，随着让机器理解和表达语言的自然语言处理的进步，以及可以根据文本输入生成图像的系统的进步，对生成式人工智能模型的兴趣和研究有所加快。今天，我们正在展示CM3leon(发音像“chameleon”)，这是一个进行文本到图像和图像到文本生成的基础模型。

CM3leon是第一个使用从纯文本语言模型改编的方法进行训练的多模态模型，包括大规模检索增强预训练阶段和第二个多任务监督微调(SFT)阶段。本方法很简单，产生了一个强大的模型，还表明基于tokenizer的transformer可以像现有的基于生成扩散的模型一样有效地训练。CM3leon在文本到图像生成方面取得了最领先的性能，尽管其训练计算量比之前基于transformer的方法少五倍。CM3leon具有自回归模型的通用性和有效性，同时保持较低的训练成本和推理效率。它是一种因果掩码混合模态(CM3)模型，因为它可以以其他图像和文本内容的任意序列为条件生成文本和图像序列。这极大地扩展了之前仅为文本到图像或仅为图像到文本的模型的功能。

尽管纯文本生成模型通常是在不同任务上进行多任务指令调整的，以提高其遵循指令提示的能力，但图像生成模型通常专门用于特定任务。将大规模多任务指令调优应用于CM3leon，用于图像和文本生成，显著提高了图像标题生成、视觉问答、基于文本的编辑和条件图像生成等任务的性能。这提供了另一个强有力的例子，说明为纯文本模型开发的缩放方法如何直接推广到基于tokenizer的图像生成模型。

在比较最广泛使用的图像生成基准(零样本MS-COCO)上的性能时，CM3Leon取得了4.88的FID (Fréchet Inception Distance)分数，在文本到图像生成方面建立了新的SOTA，并优于谷歌的文本到图像模型Parti。这一成就强调了检索增强的潜力，并强调了缩放策略对自回归模型性能的影响。CM3Leon还展示了一种令人印象深刻的能力来生成复杂的组合对象，例如下面的例子中带太阳镜和帽子的盆栽仙人掌。CM3leon在各种视觉-语言任务中表现良好，包括视觉问答和长篇字幕。即使在仅由30亿个文本标记组成的数据集上进行训练，CM3Leon的零样本性能也优于在更广泛的数据集上训练的更大模型。

CM3leon的跨任务执行

借助CM3leon，图像生成工具可以生成更连贯的图像，更好地遵循输入提示。例如，许多图像生成模型难以恢复全局形状和局部细节。CM3leon在这一领域表现强劲。以下是CM3leon在各种任务中的能力-所有任务都用一个模型执行:

文本引导的图像生成与编辑

当涉及到复杂的对象或当提示包含许多必须包含在输出中的约束时，图像生成可能是具有挑战性的。文本引导的图像编辑(如“将天空的颜色改为亮蓝色”)具有挑战性，因为它要求模型同时理解文本指令和视觉内容。CM3leon在所有情况下都表现出色，如下面的例子所示。

文生图

给定具有潜在高度组合结构的提示文本，生成一个跟随提示的连贯图像。例如，为提示创建了以下四个图像：

（1）撒哈拉沙漠中戴着草帽和霓虹太阳镜的小仙人掌。

（2）人手的特写照片，手型。高质量的。

（3）动画片中的浣熊主角准备用武士刀进行一场史诗般的战斗。战斗姿态。幻想,说明。

（4）一个奇幻风格的停车标志，上面写着“1991”。

文本引导的图像编辑

给定图像和文本提示，根据文本中的说明编辑图像。由于CM3leon模型的通用性，这是通过与上面和下面的所有其他任务相同的模型来实现的，而不像以前的模型，如InstructPix2Pix，它只针对文本引导的图像编辑进行调整。

文本任务

CM3leon模型还可以遵循一系列不同的提示来生成短或长标题并回答有关图像的问题。

例如，想象一只狗拿着一根棍子。

提示问题：狗带着什么？

模型生成：棍子

提示符：详细描述给定图像。

模型生成：在这个图像中，有一只狗嘴里叼着一根棍子。表面上有草。在图像的背景中，有树。

在各种图像描述生成和视觉问答任务中对指令调优的模型进行了实证评估，并将其与之前的最先进基准进行了比较。尽管与Flamingo (100B)和OpenFlamingo (40B)相比，CM3leon模型的文本数据明显少(约3B个标记)，但它们在MS-COCO描述和VQA2问答上与OpenFlamingo的零样本性能水平相匹配，甚至在VizWiz任务上击败了Flamingo近10个点。

结构引导的图像编辑

结构引导的图像编辑不仅涉及理解和解释文本指令，还包括作为输入提供的结构或布局信息。这使CM3leon模型能够在遵循给定结构或布局准则的同时，对图像创建视觉上连贯和上下文合适的编辑。

根据目标生成图像

给定图像边界框分割的文本描述，生成图像。

根据分割生成图像

给定一个只包含分割的图像(没有文本类)，生成一个图像。这里的输入表示我们从中提取分割的图像。

超分辨率结果

上面生成的所有图像都显示了CM3leon模型的原始输出。然而，图像生成的一个常见技巧是添加一个单独训练的超分辨率阶段，以从原始模型输出中生成更高分辨率的图像。这也可以很好地与CM3leon一起工作，正如我们在下面的示例中显示的文本到图像生成任务。

每个提示都有4个示例图像：

（1）一杯冒着热气的咖啡，背景是山。在公路旅行期间休息。

（2）日落时美丽、雄伟的道路。审美。湖中央的圆形小岛。湖的四周是森林。高对比度。

更多提示的例子：

（1）海龟在水下游泳。审美。幻想。

（2）大象在水下游泳。审美。幻想。

（3）羊群。审美。幻想。

我们是如何建造CM3leon的

模型架构

CM3Leon的架构使用了一个基于解码器的transformer，类似于成熟的基于文本的模型。然而，使CM3Leon与众不同的是它输入和生成文本和图像的能力。这使CM3Leon能够成功地处理我们上面分享的各种任务。

训练

根据我们最近的工作，CM3leon的训练检索增强了，大大提高了所产生模型的效率和可控性。最后，如前所述，我们对广泛的不同图像和文本生成任务进行了指令微调。

随着人工智能行业的不断发展，像CM3leon这样的生成模型变得越来越复杂。这些模型通过对数百万示例图像进行训练来学习视觉和文本之间的关系，但它们也可以反映训练数据中存在的任何偏差。虽然该行业仍处于了解和应对这些挑战的早期阶段，但我们相信，透明度将是加速进展的关键。

因此，正如我们的论文中所述，我们使用授权的数据集训练了CM3leon。这表明，在与之前所有模型使用的数据分布非常不同的情况下，也可以实现强大的性能。通过使我们的工作透明，我们希望鼓励生成人工智能领域的合作和创新。我们相信，通过共同努力，我们可以创建不仅更准确，而且对每个人都更公平的模型。

为多模态语言模型铺平道路

以创建高质量生成模型为目标，我们相信CM3leon在各种任务中的强大性能是向更高保真度的图像生成和理解迈出的一步。像CM3leon这样的模型最终可以帮助提高创造力和在元宇宙中更好的应用。我们期待着探索多模态语言模型的边界，并在未来发布更多模型。

参考链接：
https://ai.meta.com/blog/generative-ai-text-images-cm3leon/

出自：https://mp.weixin.qq.com/s/6SpNiPGXNjzTDI_gkUx_Og