从对比来看,基本超越了MJ v6,遥遥领先SDXL,和SD3基本打平,距离微软的DALL-E3有一点差距。
考虑到这是一款开源产品,发布以后可以被其他创作者们魔改,尤其是在大模型的基础上进行深度训练,必然会远超其他AI绘画大模型(如果这个打分属实的话)。
不过,混元大模型的门槛不低,目前必须是NVIDIA显卡,最低配置是11G显存,推荐32G显存。尤其是推荐显存,这是让大多数玩家仰望的配置。
随着大模型的开源,相信会有更多的创作者参与调优,最终把硬件需求降下来。
具体安装和使用:
依赖关系和安装
首先克隆存储库:
git clone https://github.com/tencent/HunyuanDiT cd HunyuanDiT
我们提供了一个用于设置 Conda 环境的文件。Conda 的安装说明https://docs.anaconda.com/free/miniconda/index.html 获得。 environment.yml
# 1. Prepare conda environment conda env create -f environment.yml # 2. Activate the environment conda
activate HunyuanDiT # 3. Install pip dependencies python -m pip install -r
requirements.txt # 4. (Optional) Install flash attention v2 for acceleration (requires CUDA
11.6 or above) python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3
下载预训练模型
要下载模型,请先安装
huggingface-cli。
python -m pip install "huggingface_hub[cli]"
然后使用以下命令下载模型:
# Create a directory named 'ckpts' where the model
will be saved, fulfilling the prerequisites for running the demo. mkdir ckpts # Use the huggingface-cli tool
to download the model. # The download time may vary
from 10 minutes to 1 hour depending on network conditions. huggingface-cli
download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts
注意:如果在下载过程中出现类似错误,您可以忽略该错误,然后通过执行命令重试No such file or directory:
'ckpts/.huggingface/.gitignore.lock'huggingface-cli download
Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts
所有模型都将自动下载。有关该模型的更多信息(免翻墙):https://hf-mirror.com/Tencent-Hunyuan/HunyuanDiT
型
|
#Params
|
下载网址
|
mT5型
|
1.6乙
|
mT5型
|
夹
|
350米
|
夹
|
对话生成
|
7.0乙
|
对话生成
|
SDXL-VAE-FP16-修复
|
83 分钟
|
SDXL-VAE-FP16-修复
|
浑源-DiT
|
1.5乙
|
浑源-DiT
|
推理
使用 Gradio
在运行以下命令之前,请确保已激活 conda 环境。
# By default, we start a Chinese UI. python app/hydit_app.py # Using
Flash Attention for acceleration. python app/hydit_app.py --infer-mode fa # You
can disable the enhancement model if the GPU memory is insufficient. # The
enhancement will be unavailable until you restart the app without the
`--no-enhance` flag. python app/hydit_app.py --no-enhance # Start with English
UI python app/hydit_app.py --lang en
使用命令行
我们提供 3 种模式来快速启动:
# Prompt Enhancement + Text-to-Image. Torch mode python sample_t2i.py --prompt "渔舟唱晚" # Only Text-to-Image. Torch mode python sample_t2i.py
--prompt "渔舟唱晚" --no-enhance # Only Text-to-Image. Flash Attention mode python
sample_t2i.py --infer-mode fa --prompt "渔舟唱晚" # Generate an image with other image sizes. python
sample_t2i.py --prompt "渔舟唱晚" --image-size
1280 768
更多示例提示可以在 https://hf-mirror.com/Tencent-Hunyuan/HunyuanDiT/blob/main/example_prompts.txt 中找到
更多配置
为了便于使用,我们列出了一些更有用的配置:
论点
|
违约
|
描述
|
--prompt
|
没有
|
用于生成图像的文本提示
|
--image-size
|
1024 1024
|
生成图像的大小
|
--seed
|
42
|
用于生成图像的随机种子
|
--infer-steps
|
100
|
采样的步骤数
|
--negative
|
-
|
图像生成的负面提示
|
--infer-mode
|
炬
|
推理模式(torch 或 fa)
|
--sampler
|
ddpm的
|
扩散采样器(ddpm、ddim 或 dpmms)
|
--no-enhance
|
假
|
禁用提示增强模型
|
--model-root
|
CKPTS系列
|
模型检查点的根目录
|
--load-key
|
均线
|
加载学生模型或 EMA 模型(ema 或模块)
|