英伟达10亿美元投资！AI创业机会犹存？

HelloKitty • 2025-01-06 15:27

扫一扫在手机阅读、分享本文

5430

本文由雷科技撰写/授权提供，转载请注明原出处。

文章来源于：智能Pro

作者：失魂引

一次 AI 革命，让原本名声不显的 OpenAI 一跃成为全球知名企业，估值超过 1500 亿美元。但若讨论哪家企业才是 AI 时代的最大受益者，NVIDIA 绝对是唯一答案。

财报数据显示，2024 年第三财季，NVIDIA 营收高达 350.82 亿美元，同比增长 93.61%，归母净利润 193.09 亿美元，同比增长 108.90%，其中数据中心业务营收为 308 亿美元，同比增长高达 112%，公司市值更是超越微软，位列全球第二。

AI 企业与 NVIDIA 属于互相成就，前者需要后者提供 GPU 或专业 AI 计算卡，用于大模型的训练和推理，他们的需求助力NVIDIA营收、利润屡创新高。正因如此，NVIDIA 也清楚需要付出一定的成本扶持 AI 公司，培养客户群体。

据英国《金融时报》报道，刚刚过去的 2024 年，NVIDIA 累计参与了 50 多轮融资和多笔交易，向AI初创企业累计投资了约 10 亿美元，相较 2023 年的 8.72 亿美元增长了大约 15%。按照这个趋势，2025 年 NVIDIA 大概率会投资更多AI初创公司。

除了 NVIDIA，其他国内外互联网公司也在不断增加 AI 领域的投入，一边打造自己的 AI 团队，一边投资其他 AI 公司。对于小型 AI 公司而言，有机会获得大企业的投资无疑是好消息，基于这种情况，2024 年无数企业疯狂涌入 AI 行业。

天眼查数据显示，2024 年国内新增 AI 相关企业超过 50 万家。可在 AI 技术日渐成熟的今天，进军 AI 行业真的还有机会吗？

“钱”字当头，AI 创业入局难

AI 大模型的黑盒特质使其可解释性和可调试性较弱，对于语义的理解能力、数学逻辑和推理能力，以及可能存在的 AI“幻觉”，都是困扰开发者的技术难题。训练一款成熟可用的大模型，需要招募大量技术人才，去解决各种难题。然而行业的竞争促使企业互相挖墙脚，吸纳 AI 人才的成本不断飙升。

例如前段时间小米 CEO 雷军亲自出手，将参与过 DeepSeek-V2 大模型开发工作的罗福莉挖到了小米。网上甚至有消息称，小米公司向罗福莉开出了千万年薪。传言可能会有些夸张，但罗福莉的年薪恐怕至少是 7 位数。

人才之外，GPU 算力也是压在 AI 公司心头的重担。仍以小米为例，日前界面新闻爆料称，小米正在着手打造万卡算力集群。百度集团执行副总裁、百度智能云事业群总裁沈抖曾表示，一个 1.6 万张 GPU 的集群，采购成本就高达数十亿元，更不用说搭建、运营、维护成本。

（图源：AI生成）

万卡集群只是开始，若想打造出顶尖 AI，还需要购买更多 GPU 或专业 AI 计算卡。民生证券计算机首席分析师吕伟表示，以 ChatGPT 的 6 亿月活数据计算，训练任务大约需要 12 万张 A100，推理任务所需约 35 万张 A100。

为满足未来 AI 大模型的训练和推理需求，OpenAI CEO 山姆·奥特曼甚至提出了 7 万亿美元重塑全球半导体行业的计划。算力集群的投入堪称无底洞，最终需要多少才够，现在任何 AI 公司都说不出确切数字。要知道，1984 年上映的《终结者》电影中，觉醒了自我意识的天网系统，算力规模也仅为每秒 60 万亿次浮点运算，不如一张 RTX 4090。

招募人才和组建算力集群的成本或许很高，但总归可以承受，更严重的问题在于，用于训练大模型的数据不够了。原定 2024 年中后期面世的 GPT-5，至今未能完成训练，主要原因之一就是数据不够用。为解决数据不足的难题，OpenAI 被迫招聘工程师、数学家、物理学家编写数据，用于训练大模型。

（图源：AI生成）

AI 大模型的参数量越多，性能上限就越高，但参数量需要大量数据训练。为训练 GPT-4 和 GPT-5，OpenAI 几乎耗尽了网上公开的论文、新闻资讯，以及社交平台上的帖子，甚至因此惹上了官司，被加拿大新闻社、加拿大广播公司、Torstar、环球邮报等媒体起诉。

倒不是说数据完全被耗尽，只是剩下的数据未经公开，基本在各大公司内部，AI 公司难以获取到。山姆·奥特曼直言，未来训练一个大模型的成本可能会超过 10 亿美元。

人才、算力、数据三大成本在前，哪怕是互联网巨头也倍感压力，更不用说涌入 AI 行业的初创公司了。

不过并非没有低成本训练大模型的方法，小米开出天价年薪招募罗福莉，目的很可能在于罗福莉的身份——DeepSeek-V2 开发工作的参与者。

DeepSeek 大获成功，

降本增效不是不行

最近一段时间，AI 行业最火的新闻无疑是 DeepSeek-V3 模型的到来，其低至 557.6 万美元的训练成本，大约只是 GPT-4 的二十分之一，预计不到 GPT-5 的二百分之一。经过小雷实测，DeepSeek-V3 在文字生成、数学推理等领域的体验不输豆包、文心一言、Kimi 等国内极负盛名的 AI 应用。

DeepSeek 全新大模型的成功，向其他 AI 公司传达了一个信息——训练大模型的成本可以不用很高。然而有舍必有得，低成本训练出的大模型，存在一些难以解决的问题。

能够以极低成本训练出部分场景体验媲美豆包、Kimi 的大模型，DeepSeek 的诀窍在于有三，第一来自 MLA 架构和 MoE 架构，前者利用多头潜在注意力机制，可提取相邻层的特征并进行压缩，从而减少计算量，降低大模型训练所需成本；后者属于专家混合架构，具备 6710 亿参数，但每次仅激活 370 亿参数，降低了对计算资源的需求。