利益无关:因为我没有在做基础大模型(做的是 infra 和应用层),目前也没有做国内市场,所以可以从相对中立的角度提供一些信息。
创业几个月,发现可以比普通大厂员工拿到多很多的信息,从投资人和全球 top AI 公司的核心成员那里可以学到很多。综合在美国三个月得到的信息,感觉大厂里面最有前途的是字节和百度,已经公开发布大模型的创业公司里面最有前途的是智谱和 moonshot。
虽然 Robin 说国内已经有上百家做基础大模型的,但由于基础大模型本身是相对同质化的产品,最后基础大模型的市场很可能像公有云一样,top 3 占据大部分的市场,其他的市场份额只能算是 others。
目前国内大多数大模型创业公司才刚开始半年,一切都还没有尘埃落定,有些隐藏的高手还在默默憋大招。大模型的时代才刚刚开始,留得青山在,不怕没柴烧。
字节
为啥觉得字节可能是最有前途的呢?
字节有最多的多模态中文私有数据。高质量数据在大模型训练中是非常关键的。中文高质量的公开数据本来就不多,现在基本上已经被爬干净了。大模型的下一站肯定是多模态,字节有最多的多模态数据。
字节有 OpenAI 的研究科学家。几个月前字节就从 OpenAI 高价挖了几个科学家。4 月份业界就有传闻说字节想花上百万美金从 OpenAI 挖人,结果面试官被 OpenAI 反挖走了,成了段子。没想到字节真的从 OpenAI 挖到了人。
字节有很多 GPU 资源。早在几年前,字节就开始做大规模 GPU 集群,积累了很多 GPU 资源,今年初 GPU 荒的时候,火山云靠着屯的 GPU 卡一跃成为国内第二大 GPU 云服务商。字节几年前就开始搞大规模 RoCE 网络来做 GPU 集群互联了,能搞定这个的全球就没有几家,微软是规模最大的,今年刚发了 paper。有些厂也试图效仿微软搞 RoCE 互联 GPU 集群,结果掉进坑里了。
字节有落地场景。比如现在做视频生成的很多,字节暂时并没有像 Runway ML 那样做端到端的生成,而是走了更务实的路线,把 AI 能力放到剪映里面,使用户更容易创作短视频。
注意豆包用的并不是字节最新的大模型,所以豆包用的模型并不能反映字节大模型的最新进展。字节目前大模型的水平虽然还不如百度,但发展的加速度比较大。
百度
百度是大厂里面我认为也非常有前途的。
百度有先发优势。文心一言是国内第一个正式发布的中文大模型,目前仅 C 端就已经有上百万的 DAU。目前已经达到 GPT-3.5 和 GPT-4 之间的水平,部分中文能力已经达到 GPT-4。
百度顶层重视程度高。在文心一言最关键的一段时间,Robin 每天都要听取文心一言团队的汇报。GPU 是唯一需要 Robin 亲自调度的计算资源。
百度有很多文本数据积累。在移动互联网之前,百度是中文互联网最大的公开数据汇聚地。移动互联网的数据大部分是烟囱化的,很多甚至是私有的,腾讯也不敢用微信 QQ 的聊天记录来做大模型训练。百度的数据团队也非常强,数据采集、数据清洗都是相当专业的。单是数据增强,一个月就花几千万的 OpenAI API 调用费用。
当然,阿里、腾讯、华为也各有各的优势,比如阿里的 GPU 多、Infra 先进,腾讯有落地场景,华为有自己的 AI 芯片。但目前发布的大模型水平还不如百度和字节。
Moonshot
Moonshot 是国内大模型初创公司的代表。
Moonshot 有比较专业且和谐的团队。虽然 Moonshot 的团队相对年轻,但是有非常 sharp 的技术观点,包括前几个月比较火的 “压缩即智能” 观点。在大模型技术领域,既然大家都没做成功过大模型,年轻可能反而是优势。创始团队和谐,没有大公司病,都在专注技术。
目前大模型的进展较快,已经超过 GPT-3.5 水平。在初创公司已经发布的大模型中,只有 Moonshot 的模型水平超过了 GPT-3.5。并没有直接照抄 LLaMA 的架构,而是做了很多工程上的优化。比如长上下文能力是国内最强的,在 prompt 合理的情况下,上下文各个位置上的信息提取出来的概率都超过 90%,并不是简单用 LongChat 这种方法就能扩出来的。但是不排除有其他公司正在悄悄憋大招。
现在相比 top 几家大模型创业公司,最大的缺点是融资额相对不算最大的,GPU 资源可能尚不足以训练 GPT-4。
个人认为,字节、百度、阿里、华为一定会用自己的大模型团队,腾讯虽然自己也在做大模型,但有可能收购一家大模型公司,到合适的时机,被腾讯收购其实也是不错的。
智谱
智谱是国内 to B 领域大模型创业公司的代表。
智谱有独特的商业模式。To B 市场虽然比较难以盈利,但营收比较有保障。在大多数国内大模型创业公司主要瞄准 to C 市场的时候,能够有 to B 的资源,在这个赛道上会有一个比较稳定的利基市场。因此智谱也是国内大模型创业公司里面人员规模最大的。
融资额较大。在国内初创公司中,融资额应该是相对较大的。虽然投资可能没有字节、百度这些大厂多,但只要 GPU 到位,训练 GPT-4 这种级别的模型是足够了。
起步较早,转型及时。智谱早期是做知识图谱的,大模型浪潮到来之后及时转型到大模型,而且在知识图谱和大模型的结合方面采取了较为务实的路线,并未强行把知识图谱加到 Transformer 里面。
不过 ChatGLM 目前公开模型的水平尚未全面达到 GPT-3.5,字节、百度和 Moonshot 的模型水平都已经超过 GPT-3.5 了。我把智谱放进来主要是因为它在 to B 方面一定会占据一席之地。
那其他公司呢?
我没有办法逐一对其他公司发表评论。没有列出的公司也有很多实力很强的,我只能看到当前的进展,没有办法预测未来。
“幸福的家庭都是相似的,不幸的家庭各有各的不幸。”
大厂最容易出现的问题:
资源碎片化,有限的 GPU 资源、人才资源分散到多个互相竞争的团队,内部赛马浪费大量资源。
部门墙厚,做大模型的部门拿不到数据。
不在一线的资深专家指挥一线的年轻专家,技术方案不够接地气。大模型是个新领域,除了个别顶级科学家,大家都是站在一个起跑线上的。传统 AI 上成功的 research taste 并不一定能迁移到大模型上,反而有可能成为一个阻碍。就像贾里尼克几十年前说的,每开掉一个语言学家,语音识别率就上升了。
锁死在公司现有的业务场景。大模型本来是通用技术,但大厂经常会要求优先使能现有的产品。如果现有产品跟大模型的结合点比较少,就可能导致大模型落不了地。OpenAI 早期就被微软要求优先用在 Office 里面,还因此导致了人员出走,好在微软最终没有做这种杀鸡取卵的事情。
只抄袭别人的架构,没有自己的创新。
另一个极端,盲目追求创新,比如非要搞一个创新的非 Transformer 架构,又没有足够深入的思考,结果掉进坑里了。
全线出击,结果一个都没搞成。既要搞 GPT-4,又要搞多模态,还要搞长上下文,做文本的和多模态的还是两拨人;既要搞 to B,又要搞 to C,既要国内市场,又要海外市场。
买不到/租不到 GPU。
创业公司最容易出现的问题:
Founder dispute,就像 OpenAI 最近发生的事情,核心成员之间发生宫斗。这是创业公司最可怕的问题。
不是大公司,却患上了大公司的病。如果公司里有很多资深大厂经验的人,出现这种问题的可能性是比较高的。
某个领域招不到靠谱的专家。数据、算法、Infra 三个方向都很重要,能在三个方向上都招到靠谱的人,是很不容易的。
技术不够成熟就急于发布,损害公司声誉。例如很多中文大模型都是在 LLaMA 基础上做了 continue pretraining,加上一些中文语料就变成中文大模型了;使用 LLaMA 的架构,从头开始收集和清洗数据做 pretrain 已经是 top 创业公司才能搞定的了。真正的高手是准备搞出 GPT-4 级别的模型才一击必杀的。
缺少技术护城河。比如产品做一个虚拟的弗洛伊德,写一个 prompt 很简单,但是如果需要真的能理解弗洛伊德的理论,能够做一个靠谱的心理咨询师,没有一定的技术积累是做不出来的。如果一个公司总是担心自己的业务 OpenAI 做了怎么办,那就说明技术护城河还不够深。
创始人不懂技术。如果创始人看不懂 paper,就很难 follow 大模型领域最新的进展,每天被各种公众号的信息轰炸得焦头烂额,很容易失去耐心。
买不到/租不到 GPU。
盲目扩张规模,不仅容易导致有限的资金很快被烧光,还容易导致人浮于事,患上大公司病。
拉不到下一轮投资。不知道又有哪些基础大模型公司会死在明年的冬夜。
出自:https://mp.weixin.qq.com/s/1Cozx5Lx7br2Gh7xEVheCA