Kolors可图是快手Kolors团队开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿个文本图像对的训练,Kolors 在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面比开源和专有模型表现出显著优势。此外,Kolors支持中英文输入,在理解和生成中文内容方面表现出强大的性能。

Github地址:
https://github.com/Kwai-Kolors/Kolors
目前截止4月份的数据来一起测评,官方邀请了50位图像方面的专家来测试,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。实属强大,超过了MidJourney-v6。

在机器测评上,Kolors 获得了最高的 MPS 分数,这与人工评估的结果一致。

最关键的,Kolors完全开源,ComfyUI插件也给出了。
下面是官方给出的测评图片,可以看到,质量相当不错,并且支持中文提示词,出的图里面还能支持中文,这也太强了,据我所知,最新的SD3都不能出中文的,这波Kolors实属震惊到我了。

安装最低要求
- python 3.8及以上版本
- pytorch 1.13.1及以上版本
- transformers 4.26.1及以上版本
- 建议使用CUDA 11.7及以上
- 建议显卡显存16G以上
因为我是windows机器,在安装的时候属实费了点劲,下面我就把踩过的坑都给大家铺一铺。
1.
源码下载
git clone https://github.com/Kwai-Kolors/Kolors
2.
安装依赖
代码下载之后,不要直接安装依赖,也就是不要执行下面这句代码
pip install -r requirements.txt
而是需要打开这个requirements.txt文件,把里面需要的单独安装。

我们可以看到这个requirement文件都指定了依赖的版本,但是据我实测,几乎所有的依赖都可以高于该文档指定的版本。
其中要注意的是torch还有torchvision一定要用cuda的版本,也就是可以GPU推理的版本,也就是后面带着cu+数字这种,torch安装网上教程很多,我这里简单列几个必要的命令给大家参考。

如果不确定自己各个组件的版本,可以通过pip list来查看。

还有一个比较麻烦的就是triton组件,这个组件默认只有linux版本,windows需要下载一个编译好的版本,并且是绑定python版本的,python10和11需要下载不同版本,请自行拿取,地址如下:
https://huggingface.co/madbuda/triton-windows-builds

安装也是pip install ./triton-2.1.0-cp310-cp310-win_amd64ok.whl
装完以上依赖之后,还需要注册相关类,命令如下(注意该命令要在管理员模式下执行,开始菜单点右键,选择终端管理员):
python ./setup.py install
到这里所需要安装的东西就都完成了,下一步我们要下载模型权重。
3.
模型权重
下载模型权重
huggingface-cli download --resume-download
Kwai-Kolors/Kolors --local-dir weights/Kolors
或者
Git lfs clone https://huggingface.co/Kwai-Kolors/Kolors
weights/Kolors
下载之后的权重在Kolors目录下,weghts目录,这个命令行可以断点续传,但是很可能会少下载某个文件,如果少了文件,那就到下面的地址自己补下一个。
https://huggingface.co/Kwai-Kolors/Kolors/tree/main


4.
推理测试
python ./scripts/sample.py "一张瓢虫的照片,微距,变焦,高质量,电影,拿着一个牌子,写着“可图”"
可图会加载模型(还会加载chatglm作为文本编码器),然后推理生成图片,图片默认保存在scripts/outputs/目录下,赶紧生成一个试试吧。
下图就是dog这一个词生成的图片。

5.
批量生成一千张不同风格提示词的图片
敬请期待。