马斯克履约开源Grok，超越Llama成全球最大开源模型，总参数量达到了3140亿

本周一，马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok，这也兑现了他上周的开源承诺。截至目前，Grok 已经在 GitHub 上获得了 4.3k 颗 Star。

开源地址：https://github.com/xai-org/grok-1

Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型，其中 25% 的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构，使用了 Apache-2.0 许可证。

根据介绍，Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的，采用了创新的神经网络设计方法。

“该版本是 Grok-1 预训练阶段的原始基本模型检查点，该阶段于 2023 年 10 月宣告结束。这意味着该模型并未针对任何一种特定的应用（比如对话和交谈）进行了微调。”xAI 在博文里说道。

Grok-1是一个8x38B的MoE架构模型，总参数量达到了3140亿。大家狂喜的时候也看看下面红框里的参数，314B 参数 Mixture-of-Experts 模型，其中 25% 的权重在给定令牌上处于活动状态。这个模型是一个基础模型，它还没有经过微调（finetuning）。模型中有8个专家，但只有2个被激活，这意味着在模型运行时，只有这2个专家是参与决策过程的。

CKPT权重文件内769个tensor，下载也有价值，不必用628GB的GPU内存或者8*H100的机器跑，日后必然有GGUF文件可供下载，你现在下载，至少日后自己量化时可以做做版本比较。也不能仅看上面这张测试图，毕竟，Grok的训练数据来自X更具独特性，也更加非结构化。Grok值不值得下，看你。

马斯克果然如约用了一个（没？）让大家失望的千亿级开源大模型，占据了对“OpenAI”道德批判这个营销的点，和Altman一样，都是千年的狐狸唱聊斋。来吧，接着奏乐，接着舞。。。