1.
训练起来大模型和训练出有通用能力的模型完全是两码事。目前国内的大模型只能说训练起来了,但是训练起来远远不是技术壁垒,或者说根本不算是个事儿,这是大厂本就应该能具备的能力,并不是什么值得骄傲的事。
2.
具备通用能力的大模型,入门参数量可能不是GPT3.5的175B,可能是GPT4的1.8T。而且这仅仅是必要条件,大规模的高质量语料也许才是现阶段除OpenAI以外其他企业真正的瓶颈所在。
3.
如果瓶颈真的在语料,我很悲观这会成为比芯片更大的壁垒。因为人类最高质量的语料是书籍和论文,而真正高质量的书籍和论文掌握在西方世界手里。
4.
现阶段,最关键的是把智能做上去,诸如长文本建模,性能优化,应用场景这些一点都不关键。至少对有出息企业来说是这样,如果只是想做做应用就另当别论了。
5.
拿llama2 finetune刷榜意义不大,在特定数据集上刷得比GPT-4高并不能说明任何问题。用户一测依然是个智障。尤其是国内厂商最搞笑的是把c-eval的数据丢进训练集里面,然后再在c-eval上刷榜,各种吊打GPT,这种行为跟芯片造假的性质差不多,让国人认不清差距,以为GPT-4根本没有什么壁垒,国内厂商已经很接近了。事实是,如果GPT4是100分的话,国产的大模型能拿个10分已经烧高香了。
6.
知识能力可能不是个事,GPT4除了四则运算会犯傻逼错误之外,很少犯傻逼错误。而且推理能力比其他模型要强太多太多,我想其中可能有特别的建模方式,不清楚是不是rlhf带来的收益。
7.
数学能力不是做算术,也不是做高考题。而是有数学直觉,推导,证明的能力。目前我只在GPT4上看到了拥有数学直觉,但证明的能力还很欠缺。
8.
流量不是大模型要考虑的事情,大模型要解决的是人类面临的难题,比如解决人类还没解决的科学问题去扩展人类的智能;帮助企业做商业计划优化市场经济;帮助社会建立更健全体系等等,达到千金一token的效果。否则只是陪用户聊天,roi很难做正。
9.
只追求roi,成就不了伟大的事业。
10.
在国内做llm其实竞争不大,因为大家做事都太急太糙,目前看来大家都没太大出息。预计两年内不会有太好的成果,而我也非常期待被打脸。
11.
两个东西需要重新思考:在过去做不work的想法,也许在大模型下可以重新尝试,说不定就work了;在小模型下做work的想法,也许在一定规模之后就不再work了。原因很简单,过去不work的做法也许只是模型能力不够无法按照我们的预期去拟合;而过去一些通过引入prior的方式提升模型能力,在参数量上去之后可能反过来制约了模型。
12.
语言只是世界的一个投影。真正的未来是多模态,在这一点上,OpenAI做得很慢,慢得让全世界着急,它却又走得比任何人都要快。真正的世界模型还在后头。
13.
在高校,尤其是国内高校很难再做出有意义的工作了,有机会的话还是进厂做大模型刷新认知。
最伟大的四个工作
现在想来,纵观AI发展这十年无非4个工作在定调:AlexNet、ResNet、Transformer、GPT系列。
AlexNet,第一次证明了神经网络在参数量上的规模效应,Ilya教主也在公开采访中表示这工作增强了他的信仰
ResNet,解决了神经网络在规模化进程中在深度上的瓶颈。即使今天会有从业者诟病Residual Connection在浅层网络上不work,我想说的是这毫不影响ResNet的伟大,解决了深度瓶颈的问题,是AI史上的大问题。
Transformer,解决了神经网络在关系建模上的瓶颈,提出当今世上最伟大的神经网络结构,没有之一。
GPT系列,解决了数据规模化瓶颈,证明了数据规模效应;同时在数据量和参数量上做了颠覆所有人认知的规模化。
“横看成岭侧成峰”的蛋糕比喻
从业者大概都知道,LeCun在NIPS
2016上的蛋糕比喻,横向比较了无监督、有监督和强化学习:
整个蛋糕是一个训练样本的话
1.
无监督是蛋糕胚,每个样本有大量监督信号,比如预测下一帧,所有像素都是监督信号号,预测下一个单词,一句话里面所有token都是监督信号(一个蛋糕主要是蛋糕胚)
2.
有监督是巧克力皮,每个样本有一小些监督信号,比如分类,监督信号是类别(一个蛋糕的能吃到蛋糕皮很少)
3.
强化学习是上面的小樱桃,每个样本只有可怜的一丢丢监督信号,监督信号就是一个Scalar,Q value或 V value(一个蛋糕就一个小樱桃)
可是,大家有没有想过,只有这三样东西放在一起才能构成完整的蛋糕。而且那个樱桃,可能才是蛋糕卖好价钱的关键。
今天,我们看到OpenAI探索出来LLM训练流程:先用无监督预训练,再用有监督对齐,最后强化学习再微调模型,训练出了当今世上最伟大最强悍的模型。
同样是蛋糕比喻,LeCun把训练样本比喻成蛋糕,我们把LLM比喻成蛋糕:
1.
无监督是蛋糕胚,是一个蛋糕的主要营养所在
2.
自监督是蛋糕皮,让蛋糕符合人类的视觉和味觉偏好
3.
强化学习是樱桃,提高整个蛋糕的品质和档次
而这个Pipeline,OpenAI不仅在训练LLM如是做,在训练游戏AI亦如是:https://arxiv.org/pdf/2206.11795.pdf
大模型为什么具备如此高效的学习能力
我们看到大模型预训练的时候,对样本的学习效率异常的高,通常One-pass or
Two-pass就把数据给学到了。GPT4的泄密报告里面也提到了,对文本数据只过了两遍,对code数据过了4遍。
可是这么大的模型,这么大的自由度,不应该训练效率很低才对吗?
这个问题我换了个角度想了一下:
对于一个1亿参数量的模型,一次反传,只更新1亿个参数,也就是说,它用一亿个参数来记录每次反传。
对于一个万亿参数量的模型,一次反传,整整用1万倍参数量去记录,如果把它看作是1万个小模型,实则它之于1亿模型已经做了1w次反传。
用log的眼光看待问题,用exp的手段研究问题
过去,我们观测loss曲线的时候,很容易得到结论:loss平了,网络已经学不动了。可是今天OpenAI告诉我们,对时间取一下log,loss依然在直线下滑。
过去,我们可能做过这样的消融实验:加一层有用,加两层更有用,加三层没有进一步有用了。答曰:两层最好哦。可是今天OpenAI告诉我们,指数参数量增加,loss线性下降,何不指数增加看看?
U-shape陷阱
评估时,任务难度分级很重要,否则可能会掉进U-shape陷阱:随着模型参数量增加,在某些task上的表现,先降后升。
这个现象主要原因是,某些task会故意设置陷阱欺骗模型:
1.
中等参数量模型看懂的题意,并掉进了陷阱,凡选必错比随机还糟糕;
2.
小参数量模型看不懂题意也不懂陷阱,随机乱猜;
3.
大参数量模型,看懂了题意,也看出了陷阱,最好做对了题。
人脑 VS GPT
参数量对比
前段时间从认知神经学背景的同学那了解到,人脑大约有860亿(86 B)神经元,人脑的神经连接则有恐怖的1百万亿(100 T),学术界通常认为神经连接代表着长期记忆。神经连接对应的是人工神经网络中的参数,网传当今世上最强的语言模型GPT-4有大约1.8T参数,也就是说人脑的“参数”远大于当今世上最大最强的大模型,整整是它的50倍以上,接近两个数量级。
可是,人类的“知识量”却远不如GPT-4,那么这么多的参数人脑都用来做什么了?这是一个值得深思的问题。
难道像人类这样的“具身智能”(Embodied AI)仅仅控制身体就花费了不少神经连接?
抑或是,单单达到人类的推理水平或者情感处理就需要花费绝大部分的神经连接?
静态参数量 VS 动态参数量
总所周知,Transformer初始化的那一刻,参数量就已经定下来了,并不会随着训练改变参数量,它是给定了神经元之间的连接关系,训练只是调整其中的连接的权重。也就是说Transformer的参数量是静态的。
可是,人就不一样了,人脑的连接会随着年龄的增长而增加或减少。并且人在活动的时候就会增加“参数量”,人在阅读的时候在构建连接,人在工作的时候构建连接,人无时无刻都在构建连接。当然了,同时也会删掉一些连接,也即遗忘。
那么,人工神经网络是否可以做到,再serving的增加“连接”也即增加参数量呢?而不是靠把历史context再送进去网络一遍,而是实实在在地写进网络里面。
人脑的连接有权重吗?
人脑的神经连接真有权重一说吗?还是说连接是binary的,只有通和不通的区别,而没有连接强弱之分?这个问题笔者也会进一步和认知神经学背景的人交流。
用蛋糕比喻再一次重新思考GPT
上一次的文章,笔者重新思考了一遍LeCun的蛋糕比喻,摘录如下:
“横看成岭侧成峰”的蛋糕比喻
从业者大概都知道,LeCun在NIPS 2016上的蛋糕比喻,横向比较了无监督、有监督和强化学习:
整个蛋糕是一个训练样本的话
无监督是蛋糕坯,每个样本有大量监督信号,比如预测下一帧,所有像素都是监督信号号,预测下一个单词,一句话里面所有token都是监督信号(一个蛋糕主要是蛋糕胚)
有监督是巧克力皮,每个样本有一小些监督信号,比如分类,监督信号是类别(一个蛋糕的能吃到蛋糕皮很少) 强化学习是上面的小樱桃,每个样本只有可怜的一丢丢监督信号,监督信号就是一个Scalar,Q value或 V
value(一个蛋糕就一个小樱桃)
可是,大家有没有想过,只有这三样东西放在一起才能构成完整的蛋糕。而且那个樱桃,可能才是蛋糕卖好价钱的关键。
今天,我们看到OpenAI探索出来LLM训练流程:先用无监督预训练,再用有监督对齐,最后强化学习再微调模型,训练出了当今世上最伟大最强悍的模型。
同样是蛋糕比喻,LeCun把训练样本比喻成蛋糕,我们把LLM比喻成蛋糕:
无监督是蛋糕胚,是一个蛋糕的主要营养所在
自监督是蛋糕皮,让蛋糕符合人类的视觉和味觉偏好
强化学习是樱桃,提高整个蛋糕的品质和档次
而这个Pipeline,OpenAI不仅在训练LLM如是做,在训练游戏AI亦如是:https://arxiv.org/pdf/2206.11795.pdf
今天,如果我们这样定义监督密度: 给定一个输入样本和一个机器学习算法,算法在学习这个样本的时候,这个过程的监督密度=监督信号量÷输入量。
举个几个例子,
1.
输入是224x224图像分类任务,监督密度是1/(224x224)
2.
图像分割的监督密度可以认为是1
3.
bert中的mlm loss可以认为是0.15,因为它mask了15%,只有这部分有监督信号
监督密度为1是非常难能可贵的,图像分割的监督密度虽然也是1,可是标注非常昂贵。
可是大家有没有发现,GPT的监督密度就是1!每个token都有监督,它的监督信号来源于下一个token,连最后一个token都不会浪费,因为他的监督信号是end token。而且更令人鼓舞的是,它的标注几乎免费:在你获得数据的那一刻,就已经获得了监督信号,只是这个监督信号,是人类活动中产生的。
如果我们认为同样条件下,监督密度越高的算法学习更高效,那么GPT不仅学习效率高,而且量巨大无比。
寻找瓶颈,并心无旁骛地解决
DALL-E 3的paper出来了,全文在告诉我们,他们用了一种巧妙的方式把图像的caption重新生成一遍,这么做之后他们用到了取之不尽用之不竭的高质量数据。然后当今世上最强的文生图模型就诞生了。
也就说一直以来数据都是瓶颈,并且OpenAI找到了成本不高办法解决。
可是,数据是瓶颈大概早就是行业从业者的common sense,为什么解决瓶颈的总是OpenAI。
早在做Laion数据集的时候,研究者就已经用模型来生成caption并得到了很promising的结论,却没有其他机构把这个活做得更细致些,去生成非常detail的长文本。
今天,我想说的是,如果我们发现了行业的瓶颈,并且做的事情是在解决行业瓶颈,那么这就已经决定了我们工作意义的下限已经无比的高;如果我们把这件事做得无比细致,则决定了我们工作可能将载入史册。
在一部老电影《透明人》里面,一位资质相对普通的研究员对着实验结果,兴奋地说:“我找到了我的B和C了!”。
他的同事问到:“什么是你的B和C?”
这位研究员回答说:“我的老师曾经说过,天才可以从A(实验现象)直接到达D,而普通人则需要经过B和C才能到达D。我不是天才,但是我已经找到了我的B和C。”
今天,看到多模态的进展,这个十几年前的桥段更是让我印象深刻。
大概从clip发表以来,大家可以获得的一个认知是,数据量是瓶颈,过去多模态不work,纯纯是因为数据量不够。当然了,也因此过去的一切模型迭代以及实验结论几乎都变得没有意义。在clip发表的那一天起,过去发表的一切多模态的工作基本上可以一键清零。到今天,数据量依然是瓶颈。
大概从blip发表以来,大家可以获得的一个认知是,数据质量是瓶颈,并且用模型清洗和生成数据可以提高效果。显然LAION团队知道瓶颈在哪里,LAION的后续版本不仅数据量更大,而且都用了模型辅助标注。
好的,从此大家都知道无论是数据量还是数据质量都是瓶颈了,无论是图文对齐、图生文还是文生图。
强如LAION团队,找到了B和C,那就是扩充数据量和提高数据质量。所谓提高数据质量就是拿当前SOTA模型生成Caption。
世界上最强的研究团体,则找到了D。那就是detail caption。他们不仅发现了detail caption是密码。并且知道怎么生成detail caption:用大量的普通caption,注入知识;用相对“少量”detail caption标注注入bias。用这样的数据训练图生文模型,再用图生文模型生成无穷尽的数据训练文生图模型。
现在我们还不知道他们原始的detail caption数据集是怎么制作的,但是他们已经告诉我们D了,并且自信地说道:
如果在相同的数据集上训练足够长的时间,几乎每个具有足够参数量和训练时间的模型都会收敛到同一个点上。足够大的diffusion conv-unets成的图像与ViT生成的图像相同。AR sampling生成的图像与扩散模型相同。
这是一个令人惊讶的insight!这意味着模型的行为不是由架构、超参数或优化器选择决定的,而是由数据集决定。其他一切只是为了有效地将计算结果逼近该数据集。
翻译自:https://nonint.com/2023/06/10/the-it-in-ai-models-is-the-dataset/
当然了,世界上还有另一个维度的研究者,研究重点都不在B、C和D上。