小扎自曝愿开源100亿美元模型！2025年AGI没戏，能源短缺成最大瓶颈

HelloKitty • 2024-04-23 16:50

扫一扫在手机阅读、分享本文

4127

本文由新智元撰写/授权提供，转载请注明原出处。

文章来源于：新智元

作者：新智元编辑部

如果你手头有一个价值 100 亿美元的 AI 模型，通过了安全测试且让所有人受益，你愿意将它开源吗？

这个问题会让许多人陷入良久的思考，但小扎没有犹豫，他的回答是——我愿意！

这个惊人的言论，出自最近小扎在 Dwarkesh Patel 播客中的谈话。

此外，这期干货满满的谈话中，他还曝出了不少内幕消息，比如 Meta 为何会未卜先知，在 2022 年就大量买进 H100；为何自己会笃信元宇宙等等。

而且，跟 Sam Altman、马斯克等高歌猛进的乐观主义者不同，小扎对于 AGI 的短期实现是持悲观态度的。

在他看来，人类根本不可能在 2025 年之前实现 AGI，因为最大的瓶颈就是能源限制。要解决能源问题，我们还需要几十年时间。

开源价值 100 亿美元的 AI 模型我愿意

当主持人 Patel 问道：如果 Meta 砸了 100 亿美元开发出一个模型，它完全安全，甚至评估值还可以对模型微调，你会开源吗？

小扎坚定不移地表示：会。

主持人鲁豫脸表示不信：「花了 100 亿美元研发费用的模型，真的说开源就开源？」

小扎表示，Meta 会对此进行评估的，毕竟公司一向以开源英雄著称，在开源方面有悠久的历史，拥有 PyTorch、React 和开放计算等项目。

在开放计算项目中，Meta 将所有服务器、网络交换机和数据中心的设计都开源了。这样，整个行业都以他们的设计为标准，直接让供应链围绕这种设计建立起来。

这就大大降低了价格，直接为相关人员节省了数十亿美元。

而且，开源就能集思广益，如果有人能找到更便宜的运行方法，提升 10% 的效率，那就能直接节省数十亿甚至数百亿美元，这本身就是很值钱的，因此开源好处多多。

不过，他也承认：如果模型成为产品时，情况就变得复杂了。此时，就需要仔细权衡开源在经济上的利弊，不过，目前 Meta 并不处于这种情况。

这是显而易见的，因为 Meta 绝对不会把 Instagram 的代码开源。

苹果和谷歌是糟糕的守门人

同时，小扎也痛批了竞争对手一把。

他表示，移动生态最糟糕的一点就是，我们可以开发什么，是由苹果和谷歌这两个守门人把门的。

因为每当 Meta 构建出一些产品，这俩就会分走一大笔钱。

更让小扎不满的是，很多次 Meta 想要推出新产品或新功能，苹果都会说不行。

小扎直呼：如果世界里只有这几家运行封闭模型的公司，它们将直接控制 API！

就是为了打破这种局面，Meta 深信自己去构建一个模型是值得的。

对此，Ate-a-Pi 开玩笑道：因为扎克伯格是个好人！

当然，他确实是个好人。但更重要的是这背后商业上的考量：

1. 允许在 Meta 之外进行社交产品的调试：

- 社交产品总会有 bug！

- Meta 以及所有社交平台的产品，都需要对互动的内容进行控制（例如对孩子说有害的话)

- 将技术推向市场，可以让 Meta 在小规模环境中观察到这些 bug

2. Meta 面临的最大威胁是 character.ai：

- AI 朋友将更多、更友好、更易于获取，超越你的现实朋友（目前被 FB、Ins 和 WhatsApp 等「控制」）

- 但 Meta 目前还不能直接下场，因为这会让人感到不安，尤其是在技术还未完善时，会产生一种怪异的不自然感

- Meta 曾尝试过 Tom Brady 和 Snoop Dogg 风格的 AI 朋友，但为了安全，有趣的互动受到了很高的限制

- 如果 AI 朋友的表现足够好，小扎或许不得不「解散」他建立的社交网络

3. 摧毁竞争对手：

- 技术或产品的早期领先可以帮助一家初创公司克服分销上的不利

- Meta 拥有终极的分销优势，而小扎不希望其他人分一杯羹

- 通过开源，他可以有效限制 character.ai、OpenAI 等公司收入的增长

- 这些公司必须在资本的限制下加速创新，而他并不会受到资本的限制

- 最终，防止大型竞争对手的出现

4. 分布式研发：

- 他希望其他人能够开发出有趣的社交创意，并进行复制（此前就曾将 Snap 的创新融入 Instagram）

- 现在更甚，因为你必须给微调的 Llama 3 打上标注

不得不说，小扎的这波操作可谓是体现了他对社交无人能及的理解，仿佛就像来自另一个星球一样。

除此之外，在 2023 年第四季度财报中，小扎也曾详细说明过了以上内容。

简而言之，开源可以改进我们的模型。

首先，将模型转化为产品还需要大量工作，而且无论如何市场上都会有其他开源模型。

因此，我们认为成为开源的领导者不仅不会显著削弱我们产品的差异化，而且还会带来优势。

我之前以为，面向社交、商业或媒体领域的这些工具，只需解决AI挑战的一个子集就能交付。但现在看来，为了提供我们设想的最佳服务，模型必须具备推理、规划、编码、记忆等多种认知能力。

FAIR 从事通用智能研究已有十多年，现在通用智能也将成为我们产品工作的重点。

寒冬已来，25 年前不可能实现 AGI

关于 AGI 的短期实现，小扎是持悲观态度的。

在他看来，2025 年之前是不可能实现 AGI 的，最大的瓶颈，就是能源限制。

能源将限制 AI 的发展，而如果要解决这些问题，可能需要几十年时间。

虽然坐拥至少数万块英伟达 GPU，但小扎却觉得，单纯把计算集群造大，早晚会遇到边际效应的那一点，感觉有点在内涵 Sam Altman。

在采访中，他表示如今世界上最棘手的事情就是：虽然 Llama-3 的 8B 比 Llama-2 的 70B 更好，但指数曲线还能持续多久？

尽管如此，他也认为投资 100 亿美元，甚至 1000 亿美元，来建设基础设施是值得的，或许会让我们得到一些惊人的东西。

是的，如今 GPU 的供应限制，已经让很多公司投入大量资金来构建基础设施。

在到达某一点的时候，投入更多资本的性价比就变低了。

而且在到达这一点之前，我们就会遇到能源的限制。因为目前还没人建立过一千兆瓦的单一训练集群。

在过去十年中，每单位能量的原始计算量每两年翻一番，老黄也意识到了这一点

主持人提问道：如果你有 1 万亿美元呢？

小扎表示，这还是取决于指数曲线会走多远。

现在的数据中心，规模大概是 50 兆瓦或 100 兆瓦，特别大型的能达到 150 兆瓦。

但 300 兆瓦、500 兆瓦甚至 1 吉瓦的数据中心，需要花费数年时间才建成，如果是 1 吉瓦，就需要一个核电厂的能源。

此外，也存在架构瓶颈。

小扎认为，如果持续给 Llama-3 70B 提供更多数据，或者通过 token 进行优化，它会持续改进。

不过，我们在此基础上构建的东西，不可能无限进步。

也就是说，小扎基本陷入了渐进主义的陷阱，他不相信 GPT-4 的性能可以提升 100 倍，或 AGI 在短期内能实现。

如果 GPT-5 的性能是 GPT-4 的 10 到 100 倍，那当前的 MMLU 之类的基准测试，根本就不起作用。

那该如何衡量，模型创造的价值是否超过了部署成本呢？

总之，放出这种言论的小扎，现在并没有在筹集资金。而 Sam Altman、马斯克、Dario Amodei 等疯狂筹资的大佬，都预计 AI 模型能力将大幅提高。

这其中有多少是真实水分，有多少是炒作需要，我们就不得而知了。

只能说，相比之下小扎目前看起来更像个老实人。

22 年买入大量 GPU，是未卜先知？

在 2022 年公司股价遭遇重创之际，小扎还是铤而走险，购买了大批 H100。

当年第三季度财报显示，Meta 资本支出高达 320 亿-330 亿美元。

其中一部分大多流向数据中心、服务器和网络基础设施构建，以及在元宇宙上的巨额投入。

而现在看来，他好像拥有一种未卜先知的能力。

在采访中，小扎解释道，「当时 Meta 正大力发展短视频工具 Reels，因此需要更多的GPU来训模型」。

「这也是我们提供服务的一次重大转变，我们不再针对你所关注的人或页面的内容进行排名，而是开始大力推荐『非关联内容』的内容」。

也就是说，向用户展示候选内容的语料库，有时会从几千个扩大到数亿个。

若想在这一数量级数据中完成训练推理，就需要一个完全不同的基础设施。

「因此，我们要订购足够多的 GPU，以满足我们在 Reels、内容排序和信息流等方面的需求。还要额外多购买一倍」。

另外，小扎曾在年初宣布，计划到年底要部署 35 万块英伟达 H100。

他透露了更多的细节，这将是一个非常大的舰队。Meta 内部将为训练 LLM 打造两个单集群，一个配备 22,000 块 H100，另一个集群配备 24,000 块。

因为模型推理对 Meta 来说，是至关重要的一件大事，需要为 Facebook、Ins 等自家应用的用户提供服务。

用小扎的原话来说，就是：

我们所需的推理计算与训练的比率，可能远高于其他从事这一领域的公司，这是因为我们所服务的社区用户量非常庞大。

GPT-4 级开源模型，今年晚些发布

小扎还提到，对于 Llama 3，主要专注于使用大量代码进行训练。在代码中训练模型，有助于其在不同的领域中进行推理。

与此同时，Llama 3 是专为工具使用而设计。

「我们的开发者不需要手写所有代码，就可以让模型使用谷歌并进行搜索」。

他还提到了，下一代模型 Llama 4 将针对智能体行为而打造。

其实，整个 AI 圈更加期待的是，媲美 GPT-4 级别的开源模型 Llama 3-405B 能够发布。

小扎称，4050 亿参数的 Llama 3 将具备更强的多模态能力，支持多种语言，以及更大的上下文窗口，并计划在今年晚些时候推出。

就目前训练结果而言，405B 已经在大规模多任务语言理解的基准测试（MMLU）中，取得了大约 85 分的成绩。

其实 Llama3 发布三天后，已经有 1000 个微调模型在 Hugging Face 上发布。

1000 个微调 Llama 3 模型，中文占 8 个

HF 的创始人 Clement Delangue 非常期待，下周结束前，或许会有 1 万个开源 Llama3 变体上线。

其中，网友 @meng__shao 总结了，截止目前中文的微调模型已达到 6 个。

目前，最小版本的额 Llama-3 8B 已经在改变世界，不仅能在消费级设备上运行，还开辟了大量领域的应用。

那么，未来的 Llama 模型，或许是能够解决用户所有用例的 Llama 10 发布那天，是否足以取代现实中的程序员？

小扎表示，「我不确定我们是否正在取代人类程序猿，因为 Meta 正在给人们提供工具来做更多的事情」。

而且衡量人类智力不仅只有单一的阈值，因为每个人都有不同的技能。我认为，在某种程度上，人工智能可能会在大多数方面超过人类，这取决于模型的强大程度。但这个过程，是循序渐进的。

对元宇宙的信仰从何而来

虽然烧了 300 亿美元不止，但小扎对元宇宙似乎依然没有放弃。

主持人提出了一个尖锐的问题：就是市场对你大加指责，你也要坚定去做元宇宙。这种笃定，究竟来源于什么？是什么样的价值观或直觉，让你如此笃信元宇宙？

小扎表示，自己只是单纯喜欢建造东西。

他喜欢围绕人们的交流、表达和工作来构建产品，这跟他大学时的专业有关。他学的是计算机科学和心理学，而建造元宇宙，就是两门专业的交叉点。

这是一种深刻的内驱力，让他觉得自己如果不做点新东西，就像犯了错一样。

而且，无论身处何处，元宇宙都能让你感受到与人的联结，在小扎看来，这是一个杀手锏。

技术的一个教训是，要尽可能将物理约束领域的东西转移到软件中，因为软件更容易构建和迭代。

不是每个人都有数据中心，但很多人都可以写代码，并且使用和修改源代码。

而元宇宙版本的软件，就是实现现实的数字存在。在社交、沟通、医疗行业等，元宇宙都会作用巨大。

而且，在为 AI 投资 1000 亿美元，或者为元宇宙投入巨额资金时，商业计划就能表明：如果产品奏效，这是很好的投资。

即使在生活中，小扎也是这样的。在考爱岛，他建了一个牧场，负责设计所有建筑。

「如果要养出世界上最好的牛，该怎么设计呢？这就是我。」

参考资料：

https://twitter.com/8teAPi/status/1781480713394737238

https://the-decoder.com/why-meta-ceo-mark-zuckerberg-is-willing-to-give-away-a-10-billion-ai-model/

*插播一条消息：在全球化的时代浪潮中，AI+跨境电商正迎来前所未有的发展机遇，为了让不同领域的企业聚集在一起，展示在AI跨境电商领域的服务和产品，促进行业内的信息流通和合作机会，白鲸跨境与白鲸技术栈正在招募一群富有激情和创造力的伙伴，共同绘制AI+跨境电商的生态图谱！如有感兴趣者，可点击下方链接进行报名。

AI+跨境电商图谱招募令报名链接：https://www.baijing.cn/activity/1636

微信图片_20240222160346.png