英伟达GTC大会全文：黄仁勋宣告推理时代到来，龙虾就是新操作系统！

HelloKitty • 2026-03-17 14:28

扫一扫在手机阅读、分享本文

1946

本文由华尔街见闻撰写/授权提供，转载请注明原出处。

以下文章来源于：华尔街见闻

在 GTC 2026 大会上，英伟达 CEO 黄仁勋将公司定位为“AI 工厂”构建者，称“到 2027 年将看到至少 1 万亿美元的高确信度需求”。他提出“Token 工厂经济学”，强调每瓦性能是商业变现的核心。黄仁勋断言 Agent（智能体）将终结传统 SaaS 模式，未来“年薪+Token预算”将成为职场新标配。

华尔街见闻

开场致辞

主持人：欢迎英伟达创始人兼首席执行官黄仁勋登台。

黄仁勋，创始人兼首席执行官：

欢迎来到 GTC。这是一场技术大会，看到这么多人一大早就排队入场，非常高兴。

今天我们将围绕三大平台展开讨论：CUDA-X 平台、系统平台，以及全新的 AI 工厂平台。当然，最重要的是生态系统。

首先，我要感谢我们的"赛前热身"主持人，他们表现出色：来自 Conviction 的 Sarah Guo、红杉资本的 Alfred Lin（英伟达的第一位风险投资人），以及英伟达第一位重要机构投资人 Gavin Baker。这三位对技术有着深刻的理解，在技术生态系统中拥有广泛的影响力。此外，也感谢我亲自挑选的所有贵宾。

同时，我要感谢所有参会企业。英伟达作为平台公司，拥有技术、平台和丰富的生态系统。今天，涵盖百万亿美元产业的企业几乎全部汇聚于此——450 家企业赞助了本次活动，非常感谢。

本次大会共设 1,000 场技术专题，汇聚 2,000 位演讲嘉宾，将覆盖人工智能"五层蛋糕"的每一层——从土地、电力与基础设施，到芯片、平台、模型，以及最终推动整个产业腾飞的各类应用。

CUDA 的 20 年历程

今年是 CUDA 诞生 20 周年。

20 年来，我们始终致力于这一架构——这项革命性的发明：SIMT（单指令多线程），允许标量代码衍生为多线程应用，比传统方式更易于编程。近年来，我们还新增了 Tiles（瓦片）支持，帮助开发者更便捷地对 Tensor Core 及当今 AI 数学结构进行编程。

迄今为止，CUDA 已积累了数千种工具、编译器、框架与库，在开源社区中拥有数十万个公开项目，并已深度集成至每一个主流生态系统中。

飞轮效应与安装基础

下面这张图，基本上描述了英伟达战略的全貌。

最难实现、也最具战略价值的，是底层的安装基础。历经20年，我们在全球构建了数亿颗运行 CUDA 的 GPU 和计算系统。我们覆盖了每一家云服务商和每一家计算机厂商，服务于几乎每一个行业。

CUDA 的安装基础，正是飞轮加速的根本原因。庞大的安装基础吸引开发者，开发者创造新算法，新算法催生突破——例如深度学习的诞生。这些突破开辟全新市场，新市场汇聚更多生态伙伴，进而形成更大的安装基础。这一飞轮正在持续加速。

目前，英伟达库的下载量正以惊人速度增长，且增速仍在不断提升。这一飞轮使得计算平台能够持续支撑海量应用和层出不穷的技术突破。

更重要的是，它也使基础设施拥有了极长的使用寿命。原因很简单：英伟达 CUDA 能运行的应用范围极广，覆盖 AI 生命周期的每个阶段、每种数据处理平台，以及各类科学原理求解器，因此一旦安装英伟达 GPU，其使用寿命便极为可观。

这也解释了为什么我们六年前发布的 Ampere 架构，其云端定价至今仍在上涨。

与此同时，随着我们持续更新软件，计算成本也在不断下降——这不仅体现在初次部署时的性能跃升，更体现在加速计算带来的长期持续降本效应。由于所有 GPU 在架构上互相兼容，我们愿意持续支持和维护全球每一块 GPU。安装基础越大，每次新优化所惠及的用户就越多。

这一动态组合，使英伟达架构在扩大覆盖范围、加速增长的同时，持续压低计算成本，从而反过来推动新一轮增长。

CUDA 的起点：GeForce

CUDA 的旅程，实际上始于 25 年前的 GeForce。

GeForce 是英伟达有史以来最成功的市场营销。我们从你们还年幼、尚未具备消费能力时就开始吸引未来的客户——那时是你们的父母在为你们买单，年复一年，直到有一天你们成长为出色的计算机科学家，成为真正的开发者。

25 年前，我们发明了可编程着色器——世界上第一款可编程加速器，也是像素着色器的起点。这一发明驱动我们不断深入探索，5 年后催生了 CUDA。

将 CUDA 从 GeForce 推广到每一台计算机，是我们当时最重大的投资之一——即便当时难以负担，它也消耗了公司绝大部分利润。我们坚信其潜力，尽管初期艰辛，但经过 20 年、13 代架构的坚守，CUDA 如今已无处不在。

大约 8 年前，我们推出了 RTX，对架构进行了彻底重新设计，引入了两项当时全新的理念：硬件光线追踪与 AI 驱动的图形渲染。就如同 GeForce 将 AI 带到了世界面前——让 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng 等人发现 GPU 是加速深度学习的利器，从而点燃了 AI 的大爆炸——如今，AI 也将反过来彻底革新计算机图形学。

神经渲染：DLSS 5

今天，我要向大家展示图形技术的未来。我们称之为神经渲染——3D 图形与人工智能的融合，这就是 DLSS 5。

效果震撼，对吧？我们将可控的 3D 图形（虚拟世界的"结构化数据"）与生成式 AI（概率计算）融合在一起：一个完全可预测，另一个概率驱动却高度逼真。两者结合，生成的内容既美观、逼真，又完全可控。

结构化信息与生成式 AI 的融合，将在一个又一个行业中不断重演。结构化数据，是可信 AI 的基石。

结构化数据与非结构化数据平台

接下来这张图可能会让你们有些震惊，但请耐心听我说完。

结构化数据——SQL、Spark、Pandas、Velox，以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google BigQuery 等重要平台——都在处理数据框（Data Frame）。这些数据框本质上是巨型电子表格，承载着所有业务信息，是企业计算的"基准事实"。

在AI时代，这些结构化数据将被 AI 高速调用，因此必须被极致加速。未来的 AI Agent 也将广泛使用结构化数据库。

非结构化数据则代表着世界上绝大多数的信息：向量数据库、PDF、视频、语音……全球每年生成的信息中，约 90% 都是非结构化数据。过去，这些数据几乎毫无用处——我们将它们存入文件系统，却无法检索、无法查询。

现在，AI 改变了这一切。就像AI解决了多模态感知与理解问题，同样的技术可以读取 PDF、理解其含义，并将其嵌入可检索、可查询的更大结构中。

为此，英伟达创建了两个基础库：

cuDF：用于数据框（Data Frame）和结构化数据加速

cuVS：用于向量存储（Vector Store）、语义数据和非结构化 AI 数据加速

这两个平台将成为未来最重要的计算平台之一。

今天，我们正式宣布多项合作：

IBM（SQL 的发明者）正在使用 cuDF 加速其 WatsonX 数据平台

戴尔与我们合作打造了 Dell AI 数据平台，整合 cuDF 与 cuVS，专为 AI 时代设计

Google Cloud：我们加速其 Vertex AI 和 BigQuery 平台；以 Snapchat 为例，我们帮助其将计算成本降低了近 80%

AWS：我们加速 EMR、SageMaker 和 Bedrock，并将把 OpenAI 引入 AWS，推动其大规模云计算消费

Microsoft Azure：我们加速 Azure AI Foundry，深度支持必应搜索，并扩展 Azure 区域部署

CoreWeave：全球第一家 AI 原生云，为 GPU 托管和 AI 推理而生

Oracle：我们是 Oracle 的第一位 AI 客户

Palantir + 戴尔：三方合作，可在任意国家、任意隔离区域、完全本地化地部署 AI 平台

英伟达的核心战略：垂直整合，水平开放

英伟达是全球首家垂直整合、同时水平开放的计算公司。

加速计算不是一个芯片问题，也不是一个系统问题，其核心是应用加速。要持续为每个应用领域带来显著加速和成本降低，就必须深入理解应用、理解领域、理解算法，并在每一种部署场景中落地实施——无论是数据中心云端、本地部署、边缘计算还是机器人系统。

这就是英伟达必须深耕一个又一个垂直领域的原因。我们在理解算法的基础上，将其整合进计算平台，开放给全世界使用。

本届 GTC 几乎涵盖了英伟达生态的每一个垂直领域，包括：

自动驾驶

金融服务（本次 GTC 与会者中占比最大的行业，希望来的是开发者，不是交易员）

医疗健康（正经历其"ChatGPT 时刻"）

工业制造

娱乐与游戏

机器人（110 台机器人参展，几乎每家机器人公司都在与英伟达合作）

电信（约 2 万亿美元规模的行业，基站将演变为 AI 边缘计算基础设施）

我们在本届大会上宣布 100 个库和约 40 个模型的更新。这些库是公司的核心资产，是激活计算平台、解决实际问题的关键。

其中最重要的库之一是 cuDNN（CUDA 深度神经网络库），它彻底革命性地改变了人工智能，点燃了现代 AI 的大爆炸。

推理拐点的到来

过去两年里，究竟发生了什么？三件大事推动了这一切：

第一：ChatGPT 与生成式 AI 时代的开启（2022 年底至 2023 年）。 AI 不仅能感知与理解，还能翻译、创作，生成全新内容。生成式计算从根本上改变了计算机的架构方式与建设逻辑。

第二：推理 AI 的崛起（o1 及 o3 模型）。推理 AI 使模型能够反思、规划，将复杂问题分解为可处理的步骤，让 AI 更加值得信赖，并扎根于事实。这使 ChatGPT 的使用量急剧攀升，同时也大幅增加了输入与输出 Token 的计算量。

第三：Claude Code 与 Agentic AI 的诞生。这是第一个真正意义上的 Agentic 模型，能够读取文件、编写代码、编译、测试、评估，并迭代优化。Claude Code 彻底革新了软件工程。如今英伟达内部，每一位软件工程师都在使用 AI Agent 辅助编程。

AI 经历了从"感知"到"生成"，从"生成"到"推理"，再从"推理"到"执行"的演进历程——如今的 AI 能够完成真正富有成效的工作。

推理拐点已然到来。 AI 每次思考、执行、读取、推理，都需要进行推断（Inference），Token 生成需求呈爆炸式增长。过去两年间，单次工作的计算需求提升了约 10,000 倍，使用量提升了约 100 倍，计算总需求的增幅接近 100 万倍。

从 5000 亿到 1 万亿美元

去年 GTC 上，我提到我们看到了至 2026 年、对 Blackwell 和 Rubin 约 5000 亿美元的高可信度需求。

今天，在 GTC 整整一年后，站在当下，我可以清晰地看到：至少到 2027 年，需求将达到 1 万亿美元。

而且，我确信实际计算需求将远高于此。

去年是英伟达的推理之年。我们全力确保在训练和后训练之外，在 AI 生命周期的每个阶段都表现卓越，从而使基础设施投资能够长期持续发挥价值。

我们也很高兴看到 Anthropic 选择了英伟达，Meta SL 也选择了英伟达。当前，开源模型已接近前沿水平，并已无处不在。英伟达是目前全球唯一能够在语言、生物学、计算机图形学、计算机视觉、语音、蛋白质与化学、机器人等所有 AI 领域，跨所有 AI 模型，覆盖边缘到云端全场景的计算平台。

我们架构的"可迁移性（Fungibility）"，使其成为构建 AI 基础设施时最低成本、最高置信度的平台。当你投入万亿美元建设基础设施时，你需要完全的信心——英伟达是目前全球唯一能够让你充满信心部署的计算平台，无论是云端、本地还是任何国家。

目前，我们 60% 的业务来自五大超大规模云服务商，另外 40% 来自区域云、主权云、企业、工业、机器人、边缘和超算等多个领域。这种多元化的覆盖本身就是韧性所在——AI 已不再是单一应用，而是一场真正意义上的计算平台转变。

推理性能的突破

我们在推理优化上取得了根本性突破：

这是有史以来最全面的 AI 推理性能测评（来自 Semi Analysis）。分析维度如下：

纵轴（每瓦 Token 数）：反映吞吐量。每个数据中心都受电力约束，1吉瓦的工厂无法变成2吉瓦，必须在有限电力内最大化 Token 产出。

横轴（推理速度/Token速率）：反映交互性与 AI"智能度"。速度越快，模型越大、上下文越长、思考越深——也就越"聪明"。

结果令人震惊：

从 Hopper H200 到 Grace Blackwell，摩尔定律预期能带来约 1.5 倍的提升，但实际提升达到 35 倍的每瓦性能。Semi Analysis 的 Dylan Patel 甚至指出我报告的数据过于保守——实际上是 50 倍。

这意味着英伟达的每 Token 成本是全球最低。一个吉瓦数据中心建设成本约 400 亿美元（摊销 15 年），无论如何都必须付出这笔固定成本——因此必须在其上安装性能最优的计算系统，才能实现最低的 Token 成本。这一点，目前无可匹敌。

以 Fireworks AI 为例：我们更新了他们的软件后，同一套系统的 Token 速率从约 700 tokens/秒提升至近 5,000 tokens/秒，提升了 7 倍。这就是极致协同设计的威力。

Token 工厂的商业逻辑：

未来每家云服务商、AI 公司都将从 Token 工厂的视角审视其业务。不同 Token 速率对应不同服务等级与定价：

免费层：高吞吐、低速度

基础层：约 3 美元/百万 Token

标准层：约 6 美元/百万 Token

高级层：约 45 美元/百万 Token

顶级层：约 150 美元/百万 Token（高速、超长上下文、最大模型）

以 Grace Blackwell 为例：与 Hopper 相比，在最具商业价值的服务层级，其吞吐量提升了 35 倍，可大幅增加可变现容量，将整体数据中心收益提升约 5 倍。

Vera Rubin：下一代架构

现在，我不再只展示一颗芯片——我展示的是整个系统。这就是 Vera Rubin。

Vera Rubin 专为 Agentic 系统设计，其核心逻辑非常清晰：

大型语言模型将越来越大，需要生成更多 Token、更快速地思考；

AI Agent 将频繁访问内存（KV Cache）、结构化数据（cuDF）和非结构化数据（cuVS）；

存储系统将承受巨大压力；

工具调用要求 CPU 具备极高的单线程性能。

为此，我们打造了全新的 Vera CPU——全球唯一使用 LPDDR5 的数据中心 CPU，兼具极高单线程性能、出色数据处理能力和无与伦比的能效比。

Vera Rubin 系统的核心特性：

100% 液冷，所有线缆大幅简化

安装时间从两天缩短至两小时

使用 45°C 热水冷却，大幅降低数据中心冷却能耗

搭载第六代 NVLink 交换系统（全球唯一）——完全液冷，极难实现，我为团队感到无比自豪

全球首款 CPO Spectrum-X 交换机（共封装光学）已量产：光子直接集成至芯片，电子信号转换为光子，直接连接至芯片。该工艺与台积电联合研发，我们是全球唯一量产者，称为"CoOP"，彻底革命性。

各系列 CPU 也进入量产，已确定将成为数十亿美元规模的独立业务

Rubin Ultra（超级版）：

Rubin Ultra 采用全新"Kyber"机架，支持 144 颗 GPU 构成单一 NVLink 域。计算节点从正面插入，NVLink 交换机从背面通过中板连接，整体构成一台巨型计算机。

在技术路线图方面：

Blackwell（当前）：Oberon 系统，支持 NVLink 72

Vera Rubin：Kyber 机架（NVLink 144）+ Oberon 铜缆/光学扩展至 NVLink 576

Vera Rubin Ultra：Rubin Ultra 芯片 + LP35（首次引入 NVFP4 计算结构）

Feynman（下一代）：全新 GPU + LP40 + Rosa CPU（Rosalyn 简称）+ Bluefield 5 + CX 10 + 铜缆与 CPO 双模扩展

Grok 收购与异构推理突破

我们收购了 Grok 的技术团队，并获得了技术授权，进行深度集成。

Grok 处理器的核心特点：

确定性数据流处理器，静态编译，由编译器调度计算

计算与数据同时到达，完全软件调度，无动态调度

拥有海量 SRAM，专为推理这一单一工作负载设计

其局限在于：单颗 Grok 芯片仅有 500MB 存储（相比之下，单颗 Rubin 芯片有 288GB），无法容纳大型模型的参数及 KV Cache，限制了其规模化能力——直到我们有了一个绝妙的想法。

Dynamo：推理解耦框架

我们开发了 Dynamo 软件，将推理流程重新架构：

预填充（Prefill）阶段：在 Vera Rubin 上执行（需要大量算力）

解码（Decode）阶段的 Attention 计算：在 Vera Rubin 上执行（需要大量算力）

解码阶段的前馈网络（FFN）/ Token 生成：在 Grok 芯片上执行（需要大带宽、低延迟）

两款架构截然不同的处理器——一个专为高吞吐量，一个专为低延迟——通过 Dynamo 紧密耦合，延迟降低约50%。

结果：在最具商业价值的服务层级，性能提升35倍，同时开辟了此前从未有过的全新推理性能层级。

Grok LP30 由三星代工制造，目前已投入量产，预计 2026 年第三季度开始出货。

Grok 的最优部署策略：

若工作负载以高吞吐量为主：100% Vera Rubin

若有大量高价值代码生成或高速 Token 需求：建议将 25% 算力配置为 Grok，其余 75% 保持 Vera Rubin。

AI 工厂规模与展望

在一个吉瓦级工厂中，仅用两年时间，通过上述架构优化，Token 生成速率将从 2200 万提升至7亿，提升幅度 350 倍。

这就是极致协同设计的力量——垂直整合、水平开放，让所有人共享这一成果。

随着 AI 工厂规模急剧扩张，我们发现一个关键问题：数据中心中各类技术供应商过去从未互相接触，各自独立开发，导致大量能源浪费。

为此，我们创建了英伟达 DSX 平台，基于 Omniverse，让所有合作伙伴能够在虚拟世界中共同设计吉瓦级 AI 工厂——涵盖机械、热管理、电气、网络的全系统仿真，并与电网实时互联，通过 Max-Q 技术动态优化功耗与冷却。

我们相信，仅这一平台就能释放约两倍的效率提升——在万亿美元规模下，这是极其巨大的价值。

此外，英伟达还将进军太空：Thor 芯片已通过辐射认证，部署于卫星之中。我们正与合作伙伴开发 Vera Rubin Space-1，在太空中建设数据中心（需解决纯辐射散热的工程挑战）。

OpenClaw：AI Agent 的操作系统

现在谈谈一个重大新发现。

Peter Steinberger 开发了一款软件，叫做 OpenClaw。它成为了有史以来最受欢迎的开源项目，在短短几周内超越了Linux三十年来的传播速度。

OpenClaw 是什么？它是一个 Agentic 系统，能够：

连接大型语言模型

访问工具和文件系统

执行调度和定时任务

将问题分解为逐步执行的子任务

生成并调用子 Agent

支持多模态交互（文字、语音、手势等）

换言之，OpenClaw 本质上是 Agentic 计算机的操作系统。就像 Windows 使个人电脑成为可能，OpenClaw 使个人 Agent 成为可能。

每家企业的关键问题已变为：你的 OpenClaw 战略是什么？

就像曾经每家公司都需要 Linux 战略、HTTP/HTML 战略、Kubernetes 战略，今天每家公司都必须有 OpenClaw 战略和 Agentic 系统战略。

企业 IT 的范式转变：

旧模式：数据中心存储文件 → 软件工具 → 人类使用工具

新模式：每一家 SaaS 公司都将成为 AaaS（Agentic as a Service）公司，提供专业化的 Agent 服务。

然而，企业内部的 Agentic 系统存在重大安全挑战：它可以访问敏感信息、执行代码、对外通信。为此，我们与 Peter Steinberger 合作，联合全球顶尖安全专家，开发了 OpenClaw Enterprise 版本，基于 OpenShell 安全技术，配备策略引擎、网络护栏和隐私路由器，打造了企业级安全的参考架构，我们将其命名为 NemoClaw，可直接下载使用。

英伟达开放模型计划

英伟达已在每个 AI 领域的前沿模型上确立了领导地位：

今天，我们正式宣布成立 Nemotron 联盟，与以下公司合作共同打造 Nemotron 4：

BlackForest Labs（图像生成）

Cursor（代码编辑）

LangChain（自定义 Agent 构建框架，十亿次下载）

Mistral（开源大模型）

Perplexity（AI 搜索）

Reflection（多模态 Agentic 系统）

Sarvam（印度 AI 公司）

Thinking Machines（Mira Murati 创立的实验室）

这些公司正在与我们合作，共同将 NemoClaw 参考设计、英伟达 Agentic AI工具包以及全系列开放模型深度集成到各自的产品与服务中。

物理 AI 与机器人

除数字 Agent 之外，我们长期致力于物理 AI 与机器人领域。

我们为机器人系统打造了三台关键计算机：

训练计算机

合成数据生成与仿真计算机

机器人本体内置计算机

我们与 Siemens、Cadence 等众多合作伙伴深度集成，并宣布了一系列重大合作：

自动驾驶领域：自动驾驶的"ChatGPT 时刻"已经到来。今天，我们宣布四家全新 RoboTaxi 合作伙伴：比亚迪、现代、日产、吉利，加上之前的奔驰、丰田、通用，每年合计生产 1800 万辆汽车，全面接入英伟达 RoboTaxi Ready 平台。同时，我们宣布与 Uber 达成重大合作，将在多个城市部署 RoboTaxi 车辆并接入其网络。

工业机器人领域：我们与 ABB、Universal Robots、KUKA 及卡特彼勒等众多工业机器人公司合作，将物理 AI 模型与仿真系统整合部署至全球制造产线。

电信领域： T-Mobile 也出现在这里——未来的无线基站将演变为英伟达 Aerial AI RAN，能够动态推理流量、自适应调整波束赋形，在提升信号质量的同时显著节省能耗。

最后，我们展示了与迪士尼联合开发的"奥拉夫"机器人——基于 Jetson 计算平台、Omniverse 训练环境，以及与迪士尼、DeepMind 联合开发的 Newton 物理求解器（运行于英伟达 Warp 之上），实现了真实物理世界中的自适应运动。这是物理 AI 的精彩呈现，也是未来主题公园的生动预演。

总结

本次 GTC，我们围绕四大核心主题展开：

推理拐点——AI 从"能理解"到"能生成"到"能推理"再到"能工作"的跃迁，计算需求暴增百万倍，推理拐点正式到来；

AI 工厂——数据中心正在从存储文件的"数据中心"演变为生产 Token 的"AI 工厂"，Vera Rubin 将在每一服务层级实现约5倍的收益提升；

OpenClaw 与 Agent 革命——企业 IT 正在经历深刻变革，每家公司都必须制定 Agent 战略，NemoClaw 提供了安全可用的参考设计；

物理 AI 与机器人——自动驾驶、工业机器人、人形机器人，物理 AI 的时代已经到来。

祝大家 GTC 愉快，谢谢！

微信图片_20251229105346_380_243.png