AI魔法学院客服
腾讯开源混元AI绘画大模型
腾讯开源了其AI绘画大模型——混元大模型,该模型具有中文原生和多轮对话的特点。测试结果显示,其性能在某些方面超越了其他模型,但硬件门槛较高。文章提供了详细的安装和使用指南,包括依赖关系、环境设置、模型下载以及推理方式等,以方便创作者使用和优化该模型。
 2024-05-15
收藏 复制地址分享海报

图片

最近大厂的大模型竞争激烈,百度的文心一言主打闭源和付费路线,阿里的通义千问主打开源免费路线,而腾讯的混元大模型,则不温不火。

到了初夏的五月,腾讯突然放出了混元大模型的开源版本(文生图模型)。

经常玩Stable Diffusion的都知道,腾讯在AI绘画大模型方面颇有造诣,很多ControlNet的模型都是腾讯出品,主打一个性价比优良。

基于此,腾讯推出AI绘画大模型也就在情理之中。

混元AI绘画大模型有什么特点呢?

一是中文原生,不需要经过转译的过程,大模型可以理解原生中文,这点很重要,要比Stable Diffusion加个翻译插件好得多,尤其是在古文直接生成图方面,有着强大的优势。

图片

因为搭建环境比较繁琐,虽然开源,还没有安装使用,我就用混元大模型来进行展示。

图片

这个画面质量非常强大,对古诗词的理解也很到位。

二是多轮对话。一次生成图片后,可以继续添加其他元素。

图片

最终创作者可以通过一次次的对话引导至想要生成的图片。

为了全面比较混元大模型的生成能力,团队构建了一个4维测试集,包括文本-图像一致性、排除AI伪影、主体清晰度、美学。超过50名专业评估员进行评估。

图片

从对比来看,基本超越了MJ v6,遥遥领先SDXL,和SD3基本打平,距离微软的DALL-E3有一点差距。

考虑到这是一款开源产品,发布以后可以被其他创作者们魔改,尤其是在大模型的基础上进行深度训练,必然会远超其他AI绘画大模型(如果这个打分属实的话)。

不过,混元大模型的门槛不低,目前必须是NVIDIA显卡,最低配置是11G显存,推荐32G显存。尤其是推荐显存,这是让大多数玩家仰望的配置。

随着大模型的开源,相信会有更多的创作者参与调优,最终把硬件需求降下来。

具体安装和使用:

依赖关系和安装

首先克隆存储库:

git clone https://github.com/tencent/HunyuanDiT cd HunyuanDiT

我们提供了一个用于设置 Conda 环境的文件。Conda 的安装说明https://docs.anaconda.com/free/miniconda/index.html 获得。environment.yml

# 1. Prepare conda environment conda env create -f environment.yml # 2. Activate the environment conda activate HunyuanDiT # 3. Install pip dependencies python -m pip install -r requirements.txt # 4. (Optional) Install flash attention v2 for acceleration (requires CUDA 11.6 or above) python -m pip install git+https://github.com/Dao-AILab/flash-attention.git@v2.1.2.post3

下载预训练模型

要下载模型,请先安装 huggingface-cli

python -m pip install "huggingface_hub[cli]"

然后使用以下命令下载模型:

# Create a directory named 'ckpts' where the model will be saved, fulfilling the prerequisites for running the demo. mkdir ckpts # Use the huggingface-cli tool to download the model.# The download time may vary from 10 minutes to 1 hour depending on network conditions. huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts

注意:如果在下载过程中出现类似错误,您可以忽略该错误,然后通过执行命令重试No such file or directory: 'ckpts/.huggingface/.gitignore.lock'huggingface-cli download Tencent-Hunyuan/HunyuanDiT --local-dir ./ckpts

所有模型都将自动下载。有关该模型的更多信息(免翻墙):https://hf-mirror.com/Tencent-Hunyuan/HunyuanDiT

#Params

下载网址

mT5

1.6

mT5

350

对话生成

7.0

对话生成

SDXL-VAE-FP16-修复

83 分钟

SDXL-VAE-FP16-修复

浑源-DiT

1.5

浑源-DiT

推理

使用 Gradio

在运行以下命令之前,请确保已激活 conda 环境。

# By default, we start a Chinese UI. python app/hydit_app.py # Using Flash Attention for acceleration. python app/hydit_app.py --infer-mode fa # You can disable the enhancement model if the GPU memory is insufficient. # The enhancement will be unavailable until you restart the app without the `--no-enhance` flag. python app/hydit_app.py --no-enhance # Start with English UI python app/hydit_app.py --lang en

使用命令行

我们提供 3 种模式来快速启动:

# Prompt Enhancement + Text-to-Image. Torch mode python sample_t2i.py --prompt "渔舟唱晚" # Only Text-to-Image. Torch mode python sample_t2i.py --prompt "渔舟唱晚" --no-enhance # Only Text-to-Image. Flash Attention mode python sample_t2i.py --infer-mode fa --prompt "渔舟唱晚" # Generate an image with other image sizes. python sample_t2i.py --prompt "渔舟唱晚" --image-size 1280 768

更多示例提示可以在 https://hf-mirror.com/Tencent-Hunyuan/HunyuanDiT/blob/main/example_prompts.txt 中找到

更多配置

为了便于使用,我们列出了一些更有用的配置:

论点

违约

描述

--prompt

没有

用于生成图像的文本提示

--image-size

1024 1024

生成图像的大小

--seed

42

用于生成图像的随机种子

--infer-steps

100

采样的步骤数

--negative

-

图像生成的负面提示

--infer-mode

推理模式(torch fa

--sampler

ddpm

扩散采样器(ddpmddim dpmms

--no-enhance

禁用提示增强模型

--model-root

CKPTS系列

模型检查点的根目录

--load-key

均线

加载学生模型或 EMA 模型(ema 或模块)

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
2 评论
白雪公主的后妈2024/5/15 11:52:07
哈哈,腾讯这波操作可以啊!开源AI绘画大模型,还是个中文原生的,对咱们国内创作者来说简直是福音啊!性能还超越了其他模型,看来腾讯在AI领域也是下足了功夫。

不过硬件门槛高也是个问题,希望腾讯后续能优化一下,让更多人能享受到这个模型带来的便利。

文章里的安装和使用指南也很详细,对于我们这些小白来说真是太友好了。总之,腾讯这次开源的混元大模型值得一试,期待它在创作领域能发挥出更大的作用!
空城2024/5/15 11:03:20
腾讯发布的开源混元大模型在AI绘画领域确实令人瞩目。经过初步调查,该模型在理解和生成古诗词相关的图像上表现出色,图像质量也很强大。不过,硬件要求确实是个门槛。希望开源后能有更多数据和研究来分析其性能,同时吸引更多创作者参与调优,降低使用门槛。对于安装和使用方法,文章提供的指导很详细,方便新手快速上手。期待看到更多关于这个模型的应用和案例分析!
20秒读懂全文
伴读
# 1. 一句话总结文章摘要:
腾讯开源了其AI绘画大模型混元,该模型中文原生、支持多轮对话,生成质量强大,但在硬件需求方面门槛较高。

# 2. 生成关键词和可能相关的关键词:
关键词:
- 腾讯
- 混元AI绘画大模型
- 中文原生
- 多轮对话
- AI绘画
- 硬件需求
- NVIDIA显卡
- 显存配置
- 开源
- 深度训练
- 文本-
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群