文章列表-AI魔法学院

音视频魔法

混合专家模型 (MoE) 详解

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

大模型的研究新方向：混合专家模型（MoE）

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

0基础！动手部署Qwen1.5-MoE模型！能力如何？API接入fastgpt等任何应用！喂饭到嘴教程，附模型下载！

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

大模型实践总结

必读！RAG好用的3种Router

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

个人从零预训练1B LLM心路历程

DeepSeek V3刷屏，550万元2000张卡做出的开源模型，和OpenAI几亿烧出来的一样好

Deepseek-V2技术报告解读！全网最细！

ViTPose+：迈向通用身体姿态估计的视觉Transformer基础模型

Transformer速查宝典：模型、架构、训练方法的论文都在这里了

<12 3 >