文章列表-AI魔法学院

文章列表

0基础！动手部署Qwen1.5-MoE模型！能力如何？API接入fastgpt等任何应用！喂饭到嘴教程，附模型下载！

qwen发布了Qwen1.5-MoE-A2.7B模型！

Qwen1.5-MoE 大模型下载

QWen1.5: 卓越模型之路

文章结构如下： QWen1.5 QWen1.5性能首先，我们跟随千问1.5技术报告了解其具体的性能表现。

Qwen1.5 开源模型

混合专家模型 (MoE) 详解

) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。

MoE大模型

手把手！做Llama3的MoE专家混合模型！底层原理怎样的？做自己的MoE模型？需要多少算力？

彻底把MoE讲透！

MoE 专家混合模型

深入解析 Mistral AI 的 Mixtral 8x7B 开源MoE大模型

· 专家混合 (MoE) 架构：Mixtral 8x7B 创新地采用了 MoE 架构，该架构拥有八位“专家”和七十亿参数，能够将数据高效地分配给各自擅长处理特定任务的神经网络部分。

开源模型 Mixtral 8x7B

大模型的研究新方向：混合专家模型（MoE）

在多模态大模型的发展浪潮之下，MoE大有可能成为2024年大模型研究的新方向之一，而大模型也会带着MoE，让其再次伟大。

MoE 大模型

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

MoE（混合专家）模型最近有多火，不用过多介绍了吧？

MoE大模型 APPa

超越Claude-2.1和GPT-3.5-Turbo，Qwen1.5还藏了哪些黑科技？32K Tokens上下文支持只是开胃菜！

开源新星Qwen1.5闪亮登场！

Qwen1.5 开源模型

发现一个好东西，一键本地运行各种大模型！包括最新的Qwen1.5

直接在搜索框里输入Qwen1.5。

Qwen1.5 大模型

无显卡+纯本地跑Qwen1.5版模型！0基础闭眼部署指南！适用绝大部分开源模型！llama2+Mistral+Zephyr通杀！

② 下载qwen1.5版本模型！

Qwen1.5 开源模型

开源新标杆，千问Qwen2系列模型发布，全面超越LLama3

语言支持基准测试相比Qwen1.5，Qwen2在大规模模型实现了非常大幅度的效果提升。

qwen 千问开源

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。

Grok-1 开源模型

大模型实践总结

对于以Transformer、MOE结构为代表的大模型来说，传统的单机单卡训练模式肯定不能满足上千（万）亿级参数的模型训练，这时候我们就需要解决内存墙和通信墙等一系列问题，在单机多卡或者多机多卡进行模型训练

大模型训练

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

从应用落地的角度看，轻量级、MoE 大模型已经成为人们重要的探索方向。

MiniCPM 大模型

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。

Deepseek-V2 大模型

<12 >

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2024 AI魔法学院

京ICP备20027199号-1