0基础!动手部署Qwen1.5-MoE模型!能力如何?API接入fastgpt等任何应用!喂饭到嘴教程,附模型下载!
现在整个hi ~
真是快!上年9月份,我们就在谈moe模型的开发,而且要小而精!
Mixtral等大部分优秀的模型,都用moe架构!
不得了!
刚刚!qwen发布了Qwen1.5-MoE-A2.7B模型!
这家伙2.7B!能力超7B!
短小精悍!
意味着推理速度快!部署成本低!
后面教育组AI落地,会考虑用它做实践!
当然啦!后面,也会单独教大家!如何做自己的moe专家模型!
【宣发】教育领域大模型+RAG系统实践项目!手把手+带你做真实项目!
能力如何?看到官方说,能力超过了DeepSeekMoE 16B!
当然!它说的不算,雄哥跑一跑,看看能力怎么样!
人的专注力只有10分钟!那,开干!
① 能力如何?
② 需要多少算力?如何部署?
③ 模型下载到本地
只想看如何部署,直接到第二部分!
第一部分:能力如何?
雄哥准备了几个问题,分别测试他的知识储备、逻辑推理、文本理解、多步骤计算能力、创造性能力,共5个方面!
1.1 知识储备
问:法国的首都在哪里?
答:法国的首都是巴黎。
这是第一个问题!还算干脆!但雄哥是GPU+CPU推理的,有点慢啊!
1.2 逻辑推理能力
问:如果小明比小红高,小红比小刚高,那么小明和小刚之间谁更高?请用逻辑推理证明您的答案。
答:根据题目中的信息,我们可以得出以下关系:小明 > 小红,小红 > 小刚。这意味着小明 > 小刚。因此,小明比小刚更高。
比较简单,他的能力能应付!
1.3 文本理解
问:阅读下面的句子,并解释其中的比喻义。句子:“他的话像一把锋利的刀,直刺我的心。”
答:这个句子中的比喻义是将他的话比喻为一把锋利的刀,暗示他的言语具有强烈的伤害力和刺痛性,如同刀子刺入心脏一般,表达了说话者内心受到的深深伤害。
1.4 多步骤计算能力
问:计算以下数列的前五项:1, 3, 6, 10, ...
答:这个数列的规律是每一项等于它前面两项之和。所以,前五项可以这样计算:
1
1 + 3 = 4
1 + 3 + 6 = 10
1 + 3 + 6 + 10 = 20
1 + 3 + 6 + 10 + 15 = 44
所以,前五项是:1, 4, 10, 20, 44.
!!!!不知道你能不能算到?!这是一个推理题!他以为是求和!直接蹦!正确应该是:1-3-6-10-15
1.5 创造性能力
问:请创造一个有趣的童话故事,以“勇敢的小狐狸”为主题。
答:直接看图吧!
总体来说,雄哥觉得,moe灵魂没发挥出来!
多专家协作,不是多个非专模型,干搬砖的事!但!事实证明,模型的结合,也需要智慧和深度!只需要专1件事!
失望!
第二部分:如何部署?需多少算力?
根据官方的说明,它整合了4个总是被激活的共享expert和每次激活其中4个的60个routing expert!
4+4=8!
理论TPS达到4010.27!??
这就是小模型的魔力!
需要多少显存?Qwen1.5-MoE-A2.7B占用显存28G!
int4版本,仅15G!
今天,雄哥用vllm来部署一个api!接入fastgpt!不知如何接入,看这!
完全体!本地大模型+知识库大功告成!让知识库可以存知识!fastgpt部署m3e嵌入模型!20/45
现在!打开小企鹅!
如果之前你没用过wsl的,那你要返回去看雄哥之前的方法!
无显卡+纯本地跑Qwen1.5版模型!0基础闭眼部署指南!适用绝大部分开源模型!llama2+Mistral+Zephyr通杀!
创建miniconda环境!
指定名字“moe”,Python版本3.9!
·
conda create --name moe python=3.9
进入环境!
·
conda activate moe
现在!把会员盘下载的“transformers”文件夹复制到“root”目录下!
像这样!
回到刚刚的命令窗!
·
cd transformers
安装vllm+modelscope!否则后面无法下载模型!
·
pip install vllm modelscope --index-url https://pypi.org/simple
设置模型下载源为魔搭!等待上面安装完后,输入,回车!
模型默认保存路径是:/home/edu/.cache/modelscope/hub
·
export VLLM_USE_MODELSCOPE=True
安装transformers!
qwen-moe的代码,只能在源码塑造,所以要源码装一次!
·
pip install --index-url https://pypi.org/simple -e .
至此!环境大功告成!
输入这个指令!系统自动在魔搭下载模型,然后启动推理!
这里,雄哥只用了一块3090显卡,24G显存,但实际模型需要28G,你简单理解一下,就是超出部分使用CPU来推理了!
·
python -m vllm.entrypoints.openai.api_server \
--model qwen/Qwen1.5-MoE-A2.7B-Chat \
--tokenizer qwen/Qwen1.5-MoE-A2.7B-Chat \
--served-model-name Qwen1.5-MoE-A2.7B-Chat \
--max-model-len 4096 \
--gpu-memory-utilization 1 \
--tensor-parallel-size 1 \
--max-parallel-loading-workers 2 \
--enforce-eager
第三部分:模型+代码下载!
价值内容,仅星球会员专享,雄哥把几个版本的模型权重+推理的仓库都上传到会员盘了!
非会员后台回复: “moe”
出自:https://mp.weixin.qq.com/s/ihfqe-FKlxnA3Rc0lmcozA