AI魔法学院客服
最佳开源文生图大模型可图:安装与批量出图的完整教程
Kolors是快手Kolors团队开发的文本到图像生成模型,具备高质量图像、精准语义和出色的中英文文本渲染能力。其开源特性及ComfyUI插件支持,使其在图像生成领域表现突出。Kolors在专家测评中满意度和画面质量均领先,并超越了MidJourney-v6。安装Kolors需满足特定软硬件要求,并涉及多个步骤,包括源码下载、依赖安装、模型权重下载和推理测试。目前,Kolors支持中英文输入,并能生成含中文的图片。
 2024-07-12
收藏 复制地址分享海报

Kolors可图是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本图像对的训练,Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和专有模型表现出显著优势。此外,Kolors支持中英文输入,在理解和生成中文内容方面表现出强大的性能。

Github地址:

https://github.com/Kwai-Kolors/Kolors

目前截止4月份的数据来一起测评,官方邀请了50位图像方面的专家来测试,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。实属强大,超过了MidJourney-v6

在机器测评上,Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。

最关键的,Kolors完全开源,ComfyUI插件也给出了。

下面是官方给出的测评图片,可以看到,质量相当不错,并且支持中文提示词,出的图里面还能支持中文,这也太强了,据我所知,最新的SD3都不能出中文的,这波Kolors实属震惊到我了。

安装最低要求

  • python 3.8及以上版本
  • pytorch 1.13.1及以上版本
  • transformers 4.26.1及以上版本
  • 建议使用CUDA 11.7及以上
  • 建议显卡显存16G以上

因为我是windows机器,在安装的时候属实费了点劲,下面我就把踩过的坑都给大家铺一铺。

1.源码下载

git clone https://github.com/Kwai-Kolors/Kolors

2.安装依赖

代码下载之后,不要直接安装依赖,也就是不要执行下面这句代码

pip install -r requirements.txt

而是需要打开这个requirements.txt文件,把里面需要的单独安装。

我们可以看到这个requirement文件都指定了依赖的版本,但是据我实测,几乎所有的依赖都可以高于该文档指定的版本。

其中要注意的是torch还有torchvision一定要用cuda的版本,也就是可以GPU推理的版本,也就是后面带着cu+数字这种,torch安装网上教程很多,我这里简单列几个必要的命令给大家参考。

如果不确定自己各个组件的版本,可以通过pip list来查看。

还有一个比较麻烦的就是triton组件,这个组件默认只有linux版本,windows需要下载一个编译好的版本,并且是绑定python版本的,python1011需要下载不同版本,请自行拿取,地址如下:

https://huggingface.co/madbuda/triton-windows-builds

安装也是pip install ./triton-2.1.0-cp310-cp310-win_amd64ok.whl

装完以上依赖之后,还需要注册相关类,命令如下(注意该命令要在管理员模式下执行,开始菜单点右键,选择终端管理员):
python ./setup.py install

到这里所需要安装的东西就都完成了,下一步我们要下载模型权重。

3.模型权重

下载模型权重

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

或者

Git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

下载之后的权重在Kolors目录下,weghts目录,这个命令行可以断点续传,但是很可能会少下载某个文件,如果少了文件,那就到下面的地址自己补下一个。

https://huggingface.co/Kwai-Kolors/Kolors/tree/main

4.推理测试

python ./scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着可图”"

可图会加载模型(还会加载chatglm作为文本编码器),然后推理生成图片,图片默认保存在scripts/outputs/目录下,赶紧生成一个试试吧。

下图就是dog这一个词生成的图片。

5.批量生成一千张不同风格提示词的图片

敬请期待。

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
包打听2024/7/12 14:45:02
Kolors团队开发的文本到图像生成模型确实令人印象深刻,其高质量图像和精准语义处理能力为图像生成领域带来了新的突破。期待Kolors未来在更多领域展现其卓越性能。
20秒读懂全文
伴读
# 1.一句话总结文章摘要

Kolors是基于潜在扩散的大规模文本到图像生成模型,开源且支持中英文,经过训练在视觉质量和语义准确性上表现突出,安装和使用需遵循特定步骤,并提供了详细的安装和测试指南。

# 2.生成关键词和可能相关的关键词

**关键词**:
- Kolors
- 文本到图像生成
- 潜在扩散模型
- 视觉质量
- 语义准确性
- 开源
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群