侵吞全球算力!谷歌Gemini被曝算力达GPT-4五倍,手握TPU王牌碾压OpenAI

HelloKitty 2023-08-30 16:02

扫一扫 在手机阅读、分享本文

1442

本文由 新智元 撰写/授权提供,转载请注明原出处。

文章来源于:新智元

作者:新智元编辑部

今天,著名的 SemiAnalysis 分析师 Dylan Patel 和 Daniel Nishball,又来爆料行业内幕了。

而整个 AI 社区,再次被这次的消息所震惊:OpenAI 的算力比起谷歌来,只能说是小儿科——

谷歌的下一代大模型 Gemini,算力已达 GPT-4 的 5 倍!

1.png

根据 Patel 和 Nishball 的说法,此前屡屡被爆料将成为 GPT-4 大杀器的谷歌 Gemini,已经开始在新的 TPUv5 Pod 上进行训练了,算力高达 ~1e26 FLOPS,比训练 GPT-4 的算力还要大 5 倍。

如今,凭借着 TPUv5,谷歌已经成为了算力王者。它手中的 TPUv5 数量,比 OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的 GPU 总和还要多!

虽然 TPUv5 在单芯片性能上比不上英伟达的 H100,但谷歌最可怕的优势在于,他们拥有高效、庞大的基础设施。

没想到,这篇爆料引来 Sam Altman 围观,并表示,「难以置信的是,谷歌竟然让那个叫 semianalysis 的家伙发布了他们的内部营销/招聘图表,太搞笑了。 」

2.png

有网友却表示,这仅是一篇评论性文章,并非实际新闻,完全是推测。

3.png

不过,此前 Dylan Patel 参与的两篇稿件,无一例外都被证实,并且引发了业内的轩然大波。无论是谷歌的内部文件泄漏事件(「我们没有护城河,OpenAI 也没有」)——

4.png

谷歌 DeepMind 的首席执行官 Demis Hassabis 在一次采访中确认了谷歌护城河的真实性

还是 GPT-4 的架构、参数等内幕消息大泄密——

5.png

下面让我们来仔细看看,这次的爆料文章,又将带来多少重磅内幕消息。

沉睡的巨人谷歌已经醒来

提出 Transformer 开山之作「Attention is all you need」的作者之一、LaMDA 和 PaLM 的关键参与者 Noam Shazeer,曾受 MEENA 模型的启发,写过一篇文章。

6.png

在这篇文章里,他准确地预言了 ChatGPT 的诞生给全世界带来的改变——LLM 会越来越融入我们的生活,吞噬全球的算力。

这篇文章远远领先于他的时代,但却被谷歌的决策者忽略了。

7.png

论文地址:https://arxiv.org/pdf/2001.09977.pdf

现在,谷歌拥有算力王国所有的钥匙,沉睡的巨人已经醒来,他们的向前迭代的速度已经无法阻挡,在 2023 年底,谷歌的算力将达到 GPT-4 预训练 FLOPS 的五倍。

而考虑谷歌现在的基建,到明年年底,这个数字或许会飙升至 100 倍。

谷歌是否会在不削减创造力、不改变现有商业模式的基础上在这条路上继续深耕?目前无人知晓。

「GPU 富豪」和「GPU 穷人」

现在,手握英伟达 GPU 的公司,可以说是掌握了最硬的硬通货。

OpenAI、谷歌、Anthropic、Inflection、X、Meta 这些巨头或明星初创企业,手里有 20 多万块 A100/H100 芯片,平均下来,每位研究者分到的计算资源都很多。

8.png

个人研究者,大概有 100 到 1000 块 GPU,可以玩一玩手头的小项目。

9.png

CoreWeave 已经拿英伟达 H100 抵押,用来买更多 GPU

而到 2024 年底,GPU 总数可能会达到十万块。

现在在硅谷,最令顶级的机器学习研究者自豪的谈资,就是吹嘘自己拥有或即将拥有多少块 GPU。

在过去 4 个月内,这股风气越刮越盛,以至于这场竞赛已经被放到了明面——谁家有更多 GPU,大牛研究员就去哪儿。

Meta 已经把「拥有世界上第二多的 H100 GPU」,直接拿来当招聘策略了。

10.png

与此同时,数不清的小初创公司和开源研究者,正在为 GPU 短缺而苦苦挣扎。

因为没有足够虚拟内存的 GPU,他们只能虚掷光阴,投入大量时间和精力,去做一些无关紧要的事。

他们只能在更大的模型上来微调一些排行榜风格基准的小模型,这些模型的评估方法也很支离破碎,更强调的是风格,而不是准确性、有用性。

他们也不知道,只有拥有更大、更高质量的预训练数据集和 IFT 数据,才能让小开源模型在实际工作负载中得到改进。

11.png

「谁将获得多少H100,何时获得H100,都是硅谷现在的顶级八卦。」OpenAI联合创始人Andrej Karpathy曾经这样感慨

是的,高效使用 GPU 很重要,许多 GPU 穷人把这一点忽视了。他们不关心规模效应的效率,也没有有效利用自己的时间。

到明年,世界就会被 350 万 H100 所淹没,而这些 GPU 穷人,将彻底与商业化隔绝。他们只能用手中的游戏用 GPU 来学习、做实验。

大部分 GPU 穷人仍然在使用密集模型,因为这就是 Meta 的 Llama 系列模型所提供的。

如果不是扎克伯格的慷慨,大部分开源项目会更糟。

如果他们真的关心效率,尤其是客户端的效率,他们会选择 MoE 这样的稀疏模型架构,并且在更大的数据集上进行训练,并且像 OpenAI、Anthropic、Google DeepMind 这样的前沿 LLM 实验室一样,采用推测解码。

12.png

此图表假设,无法融合每个操作、注意力机制所需的内存带宽、硬件开销相当于参数读取,都会导致效率低下。实际上,即使使用优化的库,比如英伟达的 FasterTransformer 库,总开销甚至还会更大

处于劣势的公司应该把重点放在提高模型性能或减轻 token 到 token 延迟上,提高计算和内存容量要求,减少内存带宽,这些才是边缘效应所需要的。

他们应该专注于在共享基础架构上高效地提供多个微调模型,而不必为小批量模型付出可怕的成本代价。

然而,事实却恰恰相反,他们却过于关注内存容量限制或量化程度太高,却对模型实际质量的下降视而不见。

总的来说,现在的大模型排行榜,已经完全乱套了。

虽然闭源社区还有很多人在努力改进这一点,但这种开放基准毫无意义。

出于某种原因,人们对 LLM 排行榜有一种病态的痴迷,并且为一些无用的模型起了一堆愚蠢的名字,比如 Platypus 等等。

在以后,希望开源的工作能转向评估、推测解码、MoE、开放 IFT 数据,以及用超过 10 万亿个 token 清洗预训练数据,否则,开源社区根本无法与商业巨头竞争。

13.png

现在,在大模型之战的世界版图已经很明显:美国和中国会持续领先,而欧洲因为缺乏大笔投资和 GPU 短缺已经明显落后,即使有政府支持的超算儒勒·凡尔纳也无济于事。而多个中东国家也在加大投资,为 AI 建设大规模基础设施。

14.png

当然,缺乏 GPU 的,并不只是一些零散的小初创企业。

即使是像 HuggingFace、Databricks(MosaicML),以及 Together 这种最知名的 AI 公司,也依然属于「GPU 贫困人群」。

事实上,仅看每块 GPU 所对应的世界 TOP 级研究者,或者每块 GPU 所对应的潜在客户,他们或许是世界上最缺乏 GPU 的群体。

虽然拥有世界一流的研究者,但所有人都只能在能力低几个数量级的系统上工作。

虽然他们获得了大量融资,买入了数千块 H100,但这并不足以让他们抢占大部分市场。

你所有的算力,全是从竞品买的

在内部的各种超级计算机中,英伟达拥有着比其他人多出数倍的 GPU。

其中,DGX Cloud 提供了预训练模型、数据处理框架、向量数据库和个性化、优化推理引擎、API 以及英伟达专家的支持,帮助企业定制用例并调整模型。

15.png

如今,这项服务也已经吸引了来自 SaaS、保险、制造、制药、生产力软件和汽车等垂直行业的多家大型企业。

即便是不算上那些未公开的合作伙伴,仅仅是由安进(Amgen)、Adobe、CCC、ServiceNow、埃森哲(Accenture)、阿斯利康(AstraZeneca)、盖蒂图片社(Getty Images)、Shutterstock、晨星(Morningstar)、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、牛津纳米孔(Oxford Nanopore)、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway 等巨头组成的这份比其他竞争对手要长得多的名单,就已经足够震撼了。

考虑到云计算的支出和内部超级计算机的建设规模,企业从英伟达这里购买的似乎比 HuggingFace、Together 和 Databricks 所能够提供的服务加起来还要多。

16.png

作为行业中最有影响力的公司之一,HuggingFace 需要利用这一点来获得巨额投资,建立更多的模型、定制和推理能力。但在最近一轮的融资中,过高的估值让他们并没有得到所需的金额。

Databricks 虽然可以凭借着数据和企业关系迎头赶上。但问题在于,如果想要为超过 7,000 个客户提供服务,就必须将支出增加数倍。

不幸的是,Databricks 无法用股票来购买 GPU。他们需要通过即将开始的私募 /IPO 来进行大规模融资,并进一步用这些现金来加倍投资于硬件。

从经济学的角度来看有些奇怪,因为他们必须先建设,然后才能引来客户,而英伟达同样也在为他们的服务一掷千金。不过,这也是参与竞争的前提条件。

17.png

这里的关键在于,Databricks、HuggingFace 和 Together 明显落后于他们的主要竞争对手,而后者又恰好是他们几乎所有计算资源的来源。

也就是说,从 Meta 到微软,再到初创公司,实际上所有人都只是在充实英伟达的银行账户。

那么,有⼈能把我们从英伟达奴役中拯救出来吗?

是的,有⼀个潜在的救世主——谷歌。

谷歌算⼒之巅,OpenAI 不及一半

虽然内部也在使用 GPU,但谷歌的手中却握着其他「王牌」。

其中,最让业界期待的是,谷歌下一代大模型 Gemini,以及下一个正在训练的迭代版本,都得到了谷歌⽆与伦⽐的⾼效基础设施的加持。

早在 2006 年,谷歌就开始提出了构建人工智能专用基础设施的想法,并于 2013 年将这一计划推向高潮。

他们意识到,如果想大规模部署人工智能,就必须将数据中心的数量增加一倍。

因此,谷歌开始为 3 年后能够投入生产的 TPU 芯片去做准备。

最著名的项目 Nitro Program 在 13 年发起,专注于开发芯片以优化通用 CPU 计算和存储。主要的目标是重新思考服务器的芯片设计,让其更适合谷歌的人工智能计算工作负载。

自 2016 年以来,谷歌已经构建了 6 种不同的 AI 芯片,TPU、TPUv2、TPUv3、TPUv4i、TPUv4 和 TPUv5。

谷歌主要设计这些芯片,并与 Broadcom 进行了不同数量的中后端协作,然后由台积电生产。

TPUv2 之后,这些芯片还采用了三星和 SK 海力士的 HBM 内存。

18.png

在介绍 Gemini 和谷歌的云业务之前,爆料者先分享了关于谷歌疯狂扩张算力的一些数据——各季度新增加的⾼级芯⽚总数。

对于 OpenAI 来说,他们拥有的总 GPU 数量将在 2 年内增加 4 倍。

而对于谷歌来说,所有人都忽视了,谷歌拥有 TPUv4(PuVerAsh)、TPUv4 lite,以及内部使⽤的 GPU 的整个系列。

此外,TPUv5 lite 没有在这里算进去,尽管它可能是推理较⼩语⾔模型的主⼒。

如下图表中的增长,只有 TPUv5(ViperAsh)可视化。

19.png

即使对他们的能力给予充分肯定,谷歌的算力也足以让所有人都傻了眼。

实际上,谷歌拥有的 TPUv5 比 OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的 GPU 总和还要多。

并且,谷歌能够将这些能力的很大一部分出租给各种初创公司。

当然,就每个芯片方面的性能来说,TPUv5 与 H100 相比有显著的差距。

20.png

撇开这点不说,OpenAI 的算力只是谷歌的一小部分。与此同时,TPUv5 的构建能够大大提升训练和推理能⼒。

此外,谷歌全新架构的多模态大模型 Gemini,一直在以令人难以置信的速度迭代。

据称,Gemini 可以访问多个 TPU pod 集群,具体来讲是在 7+7 pods 上进行训练。

21.png

爆料者表示,初代的 Gemini 应该是在 TPUv4 上训练的,并且这些 pod 并没有集成最大的芯片数——4096 个芯⽚,而是使用了较少的芯片数量,以保证芯片的可靠性和热插拔。

如果所有 14 个 pod 都在合理的掩模场利用率(MFU)下使⽤了约 100 天,那么训练 Gemini 的硬件 FLOPS 将达到超过 1e26。

作为参考,爆料者在上次「GPT-4 架构」文章中曾详细介绍了 GPT-4 模型的 FLOPS 比 2e25 稍高一点。

而⾕歌模型 FLOPS 利⽤率在 TPUv4 上⾮常好,即使在⼤规模训练中,也就是 Gemini 的第⼀次迭代,远远⾼于 GPT-4。

尤其是,就模型架构优越方面,如增强多模态,更是如此。

真正令人震惊的是 Gemini 的下一次迭代,它已经开始在基于 TPUv5 的 pod 上进⾏训练,算力高达 ~1e26 FLOPS,这比训练 GPT-4 要大 5 倍。

据称,第⼀个在 TPUv5 上训练的 Gemini 在数据⽅⾯存在⼀些问题,所以不确定谷歌是否会发布。

这个 ~1e26 模型可能就是,公开称为 Gemini 的模型。

再回看上⾯的图表,这不是⾕歌的最终形态。⽐赛已经开始了,而⾕歌有着巨⼤的优势。

如果他们能够集中精力并付诸实施,至少在训练前的计算规模扩展和实验速度方面,他们终将胜出。

他们可以拥有多个比 OpenAI 最强大的集群,还要强大的集群。谷歌已经摸索了一次,还会再来一次吗?

当前,⾕歌的基础设施不仅满⾜内部需求,Anthopic 等前沿模型公司和⼀些全球最⼤的公司,也将访问 TPUv5 进⾏内部模型的训练和推理。

⾕歌将 TPU 迁移到云业务部门,并重新树立了商业意识,这让他们赢得了一些大公司的青睐果断战斗。

未来几个月,你将会看到谷歌的胜利。这些被推销的公司,有的会为它的 TPU 买单。

参考资料:

https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

最新.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章