AI魔法学院客服
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
Groq模型以惊人速度每秒输出近500个token,远超ChatGPT-3.5,其背后自研的LPU(语言处理单元)是关键,比GPU性能快10倍,且成本更低。Groq模型免费用,支持多种AI开发框架,但不支持训练。LPU设计独特,采用SRAM而非HBM,提升了速度和能效,适合大规模AI推理。Groq已在基准测试中表现出色,或可取代GPU在AI推理中的应用。公司CEO表示其目标是帮助更多人发展AI。
 2024-09-18
收藏 复制地址分享海报

1718878388318


  新智元报道  

【新智元导读】卷疯了!世界最快的大模型Groq一夜之间爆火,能够每秒输出近500token。如此神速的响应,背后全凭自研的LPU


一觉醒来,每秒能输出500tokenGroq模型刷屏全网。堪称是「世界上速度最快的LLM」!相比之下,ChatGPT-3.5每秒生成速度仅为40token。有网友将其与GPT-4Gemini对标,看看它们完成一个简单代码调试问题所需的时间。没想到,Groq完全碾压两者,在输出速度上比Gemini10倍,比GPT-418倍。(不过就答案质量来说,Gemini更好。)

,时长01:23

最关键的是,任何人可以免费用!进入Groq主页,目前有两种可以自选的模型:Mixtral8x7B-32kLlama 270B-4k

地址:https://groq.com/与此同时,Groq API也向开发者提供,完全兼容OpenAI APIMixtral 8x7B SMoE可以达到480 token/S100token价格为0.27美元。极限情况下,用Llama2 7B甚至能实现750 token/S目前,他们还提供100token的免费试用。Groq突然爆火,背后最大的功臣不是GPU,而是自研的LPU——语言处理单元。单卡仅有230MB内存,2万美元一张。在LLM任务上,LPU比英伟达的GPU性能快10倍。在前段时间的基准测试中,Groq LPU推理引擎上运行的Llama 2 70B直接刷榜,而且比顶级云提供商快18倍的LLM推理性能。

网友大波演示

Groq火箭般的生成速度,让许多人为之震惊。网友们纷纷放出的自己做的demo

在不到一秒钟的时间里,生成几百词的、带有引用的事实性回答。实际上,搜索占据了超过四分之三的处理时间,而非内容的生成!

针对「创建一个简单的健身计划」同一提示,GroqChatGPT并排响应,速度差异。1718878441979面对300多个单词的「巨型」promptGroq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划!Groq完全实现了远程实时的AI对话。在GroqInc硬件上运行Llama 70B,然后在提供给Whisper,几乎没有延迟。

,时长02:05

GPU不存在了?

Groq模型之所以能够以惊人速度响应,是因为背后公司Groq(同名)开发了独特的硬件——LPU。并非是,传统的GPU简而言之,Groq自研的是一种名为张量流处理器(TSP)的新型处理单元,并将其定义为「语言处理单元」,即LPU。它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。

论文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf具体来说,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。这种设计使得每个时钟周期(every clock cycle)都能被有效利用,从而保证了稳定的延迟和吞吐量。在能效方面,LPU也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU能够实现更高的每瓦特计算性能。目前,Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorchTensorFlowONNX。但不支持使用LPU推理引擎进行ML训练。甚至有网友表示,「GroqLPU在处理请求和响应方面,速度超越了英伟达的GPU」。1718878493192不同于英伟达GPU需要依赖高速数据传输,GroqLPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算,相较于模型训练需要的数据量远小,GroqLPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPULPU并不像GPU那样对存储速度有极高要求。如果在AI处理场景中采用GroqLPU,可能就无需为英伟达GPU配置特殊的存储解决方案。Groq的创新芯片设计实现了多个TSP的无缝链接,避免了GPU集群中常见的瓶颈问题,极大地提高了可扩展性。这意味着随着更多LPU的加入,性能可以实现线性扩展,简化了大规模AI模型的硬件需求,使开发者能够更容易地扩展应用,而无需重构系统。Groq公司宣称,其技术能够通过其强大的芯片和软件,在推理任务中取代GPU的角色。网友做的具体规格对比图。这一切意味着什么?对开发者来说,这意味着性能可以被精确预测并优化,这一点对于实时AI应用至关重要。对于未来AI应用的服务而言,LPU可能会带来与GPU相比巨大的性能提升!考虑到A100H100如此紧缺,对于那些初创公司拥有这样的高性能替代硬件,无疑是一个巨大的优势。目前,OpenAI正在向全球政府和投资者寻求7万亿美元的资金,以开发自己的芯片,解决扩展其产品时遇到算力不足的问题。1718878518818

2倍吞吐量,响应速度仅0.8

前段时间,在ArtifialAnalysis.aiLLM基准测试中,Groq的方案击败了8个关键性能指标。其中包括在延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。在右下角的绿色象限中,Groq取得最优的成绩。

来源:ArtifialAnalysis.aiLlama 2 70BGroq LPU推理引擎上效果最为出色,达到了每秒241token的吞吐量,是其他大厂的2倍还要多。

1718878529430

总响应时间Groq的响应时间也是最少的,接收100token后输出只有0.8秒。1718878534199另外,Groq已经运行了几个内部基准,可以达到每秒300token,再次设定了全新的速度标准。Groq首席执行官Jonathan Ross曾表示,「Groq的存在是为了消除「富人和穷人」,并帮助人工智能社区中的每个人发展。而推理是实现这一目标的关键,因为『速度』是将开发人员的想法转化为商业解决方案和改变生APP的关键」。1718878540950

一块卡2万刀,内存230MB

想必大家在前面已经注意到了,一张LPU卡仅有230MB的内存。而且,售价为2+美元。根据The Next Platform的报道,在以上的测试中,Groq实际上使用了576GroqChip,才实现了对Llama 2 70B的推理。通常来说,GroqRack配备有9个节点,其中8个节点负责计算任务,剩下1个节点作为备用。但这次,9个节点全部被用于计算工作。对此网友表示,Groq LPU面临的一个关键问题是,它们完全不配备高带宽存储器(HBM),而是仅配备了一小块(230MiB)的超高速静态随机存取存储器(SRAM),这种SRAM的速度比HBM320倍。这意味着,为了支持运行单个AI模型,你需要配置大约256LPU,相当于4个满载的服务器机架。每个机架可以容纳8LPU单元,每个单元中又包含8LPU。相比之下,你只需要一个H200(相当于1/4个服务器机架的密度)就可以相当有效地运行这些模型。这种配置如果用于只需运行一个模型且有大量用户的场景下可能表现良好。但是,一旦需要同时运行多个模型,特别是需要进行大量的模型微调或使用高级别的LoRA等操作时,这种配置就不再适用。此外,对于需要在本地部署的情况,Groq LPU的这一配置优势也不明显,因为其主要优势在于能够集中多个用户使用同一个模型。1718878571131另有网友表示,「Groq LPU似乎没有任何HBM,而且每个芯片基本上都带有少量的SRAM?也就是说他们需要大约256个芯片来运行Llama 70B?」没想到得到了官方回应:是的,我们的LLM在数百个芯片上运行。还有人对LPU的卡的价钱提出了异议,「这难道不会让你的产品比H100贵得离谱吗」?1718878581837

马斯克Grok,同音不同字

前段时间,Groq曾公开基准测试结果后,已经引来了一大波关注。而这次,Groq这个最新的AI模型,凭借其快速响应和可能取代GPU的新技术,又一次在社交媒体上掀起了风暴。不过,Groq背后的公司并非大模型时代后的新星。它成立于2016年,并直接注册了Groq这一名字。CEO兼联合创始人Jonathan Ross在创立Groq之前,曾是谷歌的员工。曾在一个20%的项目中,设计并实现了第一代TPU芯片的核心元素,这就是后来的谷歌张量处理单元(TPU)。随后,Ross加入了谷歌X实验室的快速评估团队(著名的「登月工厂」项目初始阶段),为谷歌母公司Alphabet设计和孵化新的Bets(单元)。或许大多数人对马斯克Grok,还有Groq模型的名字感到迷惑。1718878598625其实,在劝退马斯克使用这个名字时,还有个小插曲。去年11月,当马斯克的同名AI模型Grok(拼写有所不同)开始受到关注时,Groq的开发团队发表了一篇博客,幽默地请马斯克另选一个名字:

我们明白你为什么会喜欢我们的名字。你对快速的事物(如火箭、超级高铁、单字母公司名称)情有独钟,而我们的Groq LPU推理引擎正是运行LLM和其他生成式AI应用的最快方式。但我们还是得请你赶紧换个名字。

不过,马斯克并未对两个模型名称的相似之处作出回应。参考资料:https://x.com/JayScambler/status/1759372542530261154?s=20https://x.com/gabor/status/1759662691688587706?s=20https://x.com/GroqInc/status/1759622931057934404?s=20

出自:https://mp.weixin.qq.com/s/IY4_2-7x-DiTarwLFlQ_ww

本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请加微信:skillupvip
评论
1 评论
国产大宝贝2024/9/18 11:53:16
【AI新纪元已至!】Groq这速度,简直是AI界的法拉利啊!500个token/秒,ChatGPT-3.5都得靠边站。LPU这黑科技,性能爆表还省钱,GPU都得喊“大哥”!

脑洞大开一下,如果Groq能开放有限度的训练功能,哪怕是针对特定领域的微调,那简直是AI开发者的梦想神器!

成本更低,性能更强,还免费?这商业模式绝了,感觉像是AI界的“共享经济”,让更多人上车玩转AI,CEO的格局值得点赞!

SRAM替代HBM,这波操作666,能效和速度双丰收,AI推理的新标杆非你莫属!GPU在推理界的霸主地位怕是要动摇了。

不过话说回来,不支持训练是个小遗憾,但想想它能如此专注于推理加速,也是术业有专攻嘛。期待未来Groq能带来更多惊喜,引领AI新时代!

#Groq革命 #AI推理新宠 #LPU黑科技
20秒读懂全文
伴读
### 1. 一句话总结文章摘要
Groq模型凭借自研的LPU(语言处理单元)实现每秒近500个token的惊人输出速度,远超GPT-4等模型,且提供免费试用,其创新硬件设计或将在AI推理领域取代GPU。

### 2. 生成关键词和可能相关的关键词

**关键词**:
- Groq模型
- LPU(语言处理单元)
- 高速响应
- AI推理
- GPU替代
One More Thing
One More Thing again ...

找组织,加入AI魔法学院群