现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？ - AI魔法学院

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

LLM现在一般都是基于Transormer结构，参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数，Embedding部分参数由词表大小和模型维度决定；Decoder部分参数由模型层数和模型维度决定。

链接：https://www.zhihu.com/question/627258986/answer/3260798103

LLM现在一般都是基于Transormer结构，参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数，Embedding部分参数由词表大小和模型维度决定；Decoder部分参数由模型层数和模型维度决定。

因此决定参数的几个因素有：词表大小、模型层数（深度）、模型维度（宽度）。

关于词表大小设置，越大的词表的压缩会更好，但可能导致模型训练不充分；越小的词表压缩会比较差，导致模型对长度需求较高。Qwen技术报告和BaiChuan2技术报告中都有相关内容介绍。

关于层数设置问题，其实模型层数和维度具体设置成多少是最优的（但一般层数变大，维度也会变大），目前好像没有论文明确表明，但绝大多数感觉跟着GPT3的层数和维度来的。

所以你可以看到常见的模型6/7B是32层、13B是40层。

PS：可能由于GPT3模型先出的，让OPT、Bloom等都是为了做开源的GPT3所提出的，因此参数规模是一致的。后面的llama也是为了对标GPT3，不过为了证明效果更好，也在中间多了33B和65B规模。130B貌似只有GLM大模型是这个参数。

现在流传甚广的其实是6/7B(小)、13B(中)，主要是由于更大的模型训练成本会更高，并且对于很多人来说13B的模型已经算顶配了（消费显卡跑得了），再大的模型，对于个人来说也是负担。

本文档由网友提供，仅限参考学习，如有不妥或产生版权问题，请联系我们及时删除。客服请加微信：skillupvip

这个创作者的更多内容

万物皆可接入DeepSeek，44家接入R1的国产平台超详细大盘点

把ChatGPT装进二次元手办，你来吗？AI桌面机器人众筹

OmniVision - 968M：小巧精悍的视觉语言模型，释放多模态边缘计算强大潜能

评论

0 评论

20秒读懂全文

大模型

伴读

查看更多...

推荐阅读

· 为什么说AI现在还不行！

· 为什么大佬都在说Agent是未来？换个角度来谈一谈

· RAG 领域的新宠：为什么 AI 圈都在谈论 Jina ColBERT？

· 低调的PDF，为什么成了数字文档“永远的神”？

· 几个对我影响很大的统计学模型

· 深度解析丨StableDiffusion在多个设计场景中的探索与应用

· 为什么Llama2大模型可以在个人电脑上部署？

One More Thing

One More Thing again ...

找组织，加入AI魔法学院群

Ai魔法学院精选

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

LLM现在一般都是基于Transormer结构，参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数，Embedding部分参数由词表大小和模型维度决定；Decoder部分参数由模型层数和模型维度决定。

2023-10-30

Recommend

智能未来，AI悉心，学无止境

扫码阅读原文

下载到本地分享

汇聚AI资讯，网罗AI文档，详解AI工具！

关于我们用户协议隐私条款商务合作：skillupvip

© 2023-2025 AI魔法学院

京ICP备20027199号-1