现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?
AI魔法学院
2023-10-30
分享海报
链接:https://www.zhihu.com/question/627258986/answer/3260798103

LLM现在一般都是基于Transormer结构,参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数,Embedding部分参数由词表大小和模型维度决定;Decoder部分参数由模型层数和模型维度决定。

因此决定参数的几个因素有:词表大小、模型层数(深度)、模型维度(宽度)。

关于词表大小设置,越大的词表的压缩会更好,但可能导致模型训练不充分;越小的词表压缩会比较差,导致模型对长度需求较高。Qwen技术报告BaiChuan2技术报告中都有相关内容介绍。

关于层数设置问题,其实模型层数和维度具体设置成多少是最优的(但一般层数变大,维度也会变大),目前好像没有论文明确表明,但绝大多数感觉跟着GPT3的层数和维度来的。

所以你可以看到常见的模型6/7B是32层、13B是40层。

PS:可能由于GPT3模型先出的,让OPT、Bloom等都是为了做开源的GPT3所提出的,因此参数规模是一致的。后面的llama也是为了对标GPT3,不过为了证明效果更好,也在中间多了33B和65B规模。130B貌似只有GLM大模型是这个参数。

现在流传甚广的其实是6/7B(小)、13B(中),主要是由于更大的模型训练成本会更高,并且对于很多人来说13B的模型已经算顶配了(消费显卡跑得了),再大的模型,对于个人来说也是负担。

© THE END

转载请联系本网站获得授权

投稿或版权问题请加微信:skillupvip