DeepSeek逆袭,凭什么?

HelloKitty 2025-02-11 14:37

扫一扫 在手机阅读、分享本文

1211

本文由 智能Pro 撰写/授权提供,转载请注明原出处。

文章来源于:智能Pro

作者:TSknight

如果你在年前刚买了英伟达的股票,那么这个春节或许会过得不太开心,自从 DeepSeek 在 1 月 20 日正式发布 DeepSeek-R1 模型并开源后,英伟达的股价就在除夕节的前一天来了一次“自由落体”,从 148 美元的高位一度跌到 116 美元。

1.png

图源:百度

很多报道都将英伟达的股价暴跌归咎于“AI 界拼多多”DeepSeek-R1 模型,这倒也没错,因为 DeepSeek-R1 以一种“蛮横”的方式,打破了英伟达在 AI 算力层面的垄断。不过,有人将其理解为 DeepSeek-R1“不需要”英伟达显卡,这显然是错误的,毕竟 DeepSeek-R1 的训练服务器用的也是英伟达计算卡,并不是和英伟达彻底割席。

其中的关键在于 DeepSeek-R1 是一个开源模型,采取的“蒸馏模型”对算力要求锐减,且不硬性绑定英伟达显卡。在摆脱英伟达硬件束缚的情况下,仍然在推理性能等方面都表现出与 ChatGPT-o1 接近的能力,部分领域还有所超越。

简而言之,DeepSeek 让英伟达的高算力显卡不再是 AI 的“必选项”,这相当于给整个 AI 产业特别是中国 AI 产业注入了一剂强心针。但这对英伟达而言确实算不上是好消息,因为英伟达的高利润,恰恰来源于 AI 生态的“割裂性”。

别名“CloseAI”,

OpenAI 从来都不 Open

OpenAI 的地位毋庸置疑,作为最早被广泛认知的 AI 大模型企业,ChatGPT 依然是顶流,并且也是所有 AI 大模型的对标基准。不过,虽然名字叫 OpenAI,但是 ChatGPT 却一点也不“Open”,甚至是对用户使用限制最严格的 AI 之一。

比如,前段时间 OpenAI 就指责 DeepSeek 使用 ChatGPT 的数据进行模型“蒸馏”,违反了用户使用条例里的相关规定,不过最终因为没有证据,相关争议不了了之。OpenAI CEO 对外表示并没有起诉 DeepSeek 的计划,并直言 DeepSeek 做得很棒。

2.png

图源:维基百科

DeepSeek 引发的 AI 行业震动,也在让 OpenAI 重新审视自己的 AI 模型开放策略,并重新评估开源模型的可能。

这对英伟达的打击是致命的:ChatGPT 几乎就是与英伟达 AI 生态深度绑定的代名词,你甚至可将其称为英伟达 CUDA 生态的基石。微软等 OpenAI 的金主一直希望 OpenAI 可适配更多类型的显卡,然而到目前为止,其只是适配了部分 AMD 显卡,而且还需要通过转译等方式来运行,效率和性能表现都远不如直接用英伟达的显卡来运行。

CUDA+ChatGPT,实质上组成了一个封闭式的 AI 生态,这让需要顶级 AI 支持的企业不得不选择与 OpenAI 及英伟达合作。在 OpenAI 的带动下,Claude、Gemini 等 AI 大模型几乎都与英伟达深度绑定。英伟达除了拥有性能遥遥领先的算力卡,CUDA 完善的生态和开发工具链也是吸引 AI 开发者的法宝。

咋看下来,AI 似乎以封闭为主?实则不然,诸如 AMD 的 ROCm、Khronos Group 的 OpenCL 等 AI 生态反而走的都是开源形式。毕竟在 CUDA 生态占优的情况下,其他生态只能通过开源来增加自己的盟友。

DeepSeek 才是 OpenSeek,

开源赢了?

日光之下没有新事。

当年 PC 产业,微软与Intel联合制霸,组建了沿袭多年的“Win-Tel”联盟,Windows 生态负责消耗 Intel 的算力,Intel 不断升级制程推动PC生态成熟与普及。历史上甚至留下了“安迪比尔定律”这样的名场面总结,也就是“Andy gives, Bill takes away”(安迪提供什么,比尔拿走什么),安迪·格鲁夫作为英特尔的 CEO,致力于提升硬件性能,而比尔·盖茨则通过微软的操作系统和应用程序不断消耗这些性能,推动用户不断升级硬件。

两个巨头,赚得钵满盆满;余下玩家,跟着喝汤。在 Win-Tel 封闭联盟下,Unix、Linux 等开源生态来吸纳盟友。

今天的 AI 计算格局,像极了 PC 发展历程。AI 大模型的生态日益割裂,OpenAI 与英伟达等头部企业试图用封闭来确保领先,迫使后来者以开源来进行应对。几年来,开源生态都无法与 CUDA 的完整生态抗衡,时间上并没有一个可与 ChatGPT 抗衡的 AI 模型出现。

2024 年,百度 CEO 李彦宏甚至多次断言,“开源模型会越来越落后。”他的理由是,基础模型文心 4.0 可根据需要,兼顾效果、相应速度、推理成本等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和 post pretrain。这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低。对此,周鸿祎持反对意见,他认为“没有开源就没有 Linux、没有互联网,甚至包括我们自己借助了开源技术才能发展至今”。他还预言,在未来一到两年内,开源技术的力量很可能会超过闭源技术。

观点不重要,重要的是结果。横空出世的 DeepSeek,证明了开源的力量——这里雷科技要 PS 一下(杠精勿杠):DeepSeek 不是代码开源,其只开源了部分推理代码和模型权重,完整的训练框架、系统代码、数据处理等都没有开源。不过,行业公认它依然是开源路线下的 AI 产物,其开源程度足以让外界学习,给 AI 企业甚至 AI 巨头启发。

不是第一个开源的,

为何 DeepSeek 赢了?

在 DeepSeek 前,市场上并不缺少高质量的开源 AI 大模型,比如 Meta 的 Llama、阿里的 Qwen 等,但是在高质量 AI 模型里,只有 DeepSeek 选择了 MIT+类 OpenRAIL 的授权方式进行开源。

3.png

图源:deepseek

简单来说,DeepSeek 允许第三方对其代码进行自由使用、修改、复制和分发代码,只要保留原作者的版权声明和许可证声明即可,这几乎是开源生态中最「Open」的协议。

目前 DeepSeek 开源社区已有多个开发者上传数十款不同显卡的算子库。简单来说,DeepSeek 做好了一个底层,并搭好了一个基于英伟达显卡的基础模板,同时给出了基础版的异构部署方案,「舞台搭好了,现在请各位开始你们的表演」。

在 MIT 开源协议的基础上,第三方可根据需要随意修改 DeepSeek 的运行代码,使其适配不同的硬件设备,这是 DeepSeek-R1 普及的第一个撒手锏(关于 DeepSeek 如何重新定义 AI 硬件掀起“DeepSeek 硬件”潮流,雷科技已进行系列分析和报道,欢迎全网搜索查看)。

第二个撒手锏则是跨平台的 API 封装,如果你研究过 DeepSeek-R1 的部署代码,会发现 DeepSeek 将 CUDA、ROCm、OpenCL 等底层指令都封装为统一接口,这意味着开发者无需修改代码就可在不同的AI硬件之间迁移模型。

为了更好地适配不同硬件生态,DeepSeek 从底层开始对 AI 大模型和代码进行优化,并引入了即时编译技术,让 AI 模型可根据显卡类型动态生成最优计算图,使得不同的计算设备,都可高效运行 DeepSeek 模型。

看起来似乎并不难,为什么此前没有其他 AI 企业尝试使用即时编译技术,实现广泛的硬件适配呢?原因出在代码上。DeepSeek 为解决 H800 显卡性能不足以及跨芯片通信的瓶颈问题,最终选择绕过 CUDA 和 C/C++,从更底层的 PTX 开始编码。

你可以将 PTX 理解为一种接近汇编语言的玩意。开发者可通过 PTX 编写指令,直接调动硬件来运行 AI。PTX 虽是英伟达 AI 生态的一部分,但是并不针对特定的 GPU 运行,因此将其转译为其他硬件平台的指令后会远比以往更高效和方便。

4.png

图源:Codeplay

简单地说,你可以将 AI 理解为一个项目组:用户是公司的 CEO,CUDA 是项目组的管理人员,PTX 是组员(实际上有更底层的干活人员)。在正常的流程中,你想执行一个项目,需要先告诉 CUDA 你的需求,然后 CUDA 将其分解成不同的工作内容再转给 PTX 让“组员”执行,这时候你的公司效率就取决于 CUDA 的数量与能力。

DeepSeek 则制定了一个新的工作流程:你可与 PTX 更扁平地沟通,将工作直接分配到干活的人,相当于越过其中一个步骤,对整个流程进行提效。从 DeepSeek 公布的论文来看,他们成功地将流处理器(CUDA)的寄存器使用率从 78% 提升至 92%、计算单元闲置时间减少 40%、全局内存访问延迟从 600 周期降至 450 周期,从而实现了算力效率的暴涨和算力成本的暴跌。

在更基础的代码系统支持下,DeepSeek 的 AI 模型在转译时也拥有更高的效率,并且可在一定程度上绕开 CUDA 的限制,进而适配不同的硬件。实际上,已有很多人通过 CPU 来复现 DeepSeek 的 AI 模型部署,借助虚拟显存等技术,将内存转为显存,利用核显算力来驱动模型,极大地降低了 AI 大模型的部署门槛和成本。

DeepSeek 的创新还有许许多多,比如混合显卡集群调度算法的优化、边缘设备适配优化、梯度累积显存压缩等一系列技术,使其可以更好地适配多显卡系统。

前几天小雷在朋友圈看到一个段子,英伟达、DeepSeek 们最大的壁垒,除了自身足够强大外, 也与“这个世界会汇编语言的人越来越少”有关。因为英伟达的 CUDA 以及 DeepSeek 需要使用类汇编语言级能力开发.

很多人都忽略了 DeepSeek 的软件开发能力。想从 PTX 层面对代码进行优化,难度无异于使用汇编语言对系统内核进行编程,这是只有极少数顶层开发者具备的编程能力,其复杂度相当于手绘一部《黑神话悟空》一样。正是因为有着强大的开发能力,DeepSeek 才可与合作伙伴(如AMD、华为)深度合作,针对性优化推理效率。

在小雷看来,DeepSeek 给行业带来的启发不只是“蒸馏”等模型实现本身,它还展示了绕过 CUDA 等老生态,从更底层的代码对 AI 大模型进行重构的巨大潜力,很可能会在行业掀起一股模仿潮流,让更多 AI 公司用汇编语言来进行底层优化。

掀起多层变革,

DeepSeek 真正改变了世界

在雷科技看来,DeepSeek 给 AI 行业带来的变革是深刻的:

1、史无前例“便宜”的 AI 让 AI 有了工业化大生产的基础,给大规模商业化的 AI 产品如 AI 搜索的 PMF(产品市场契合度)创造了可能,这很重要。互联网有 Google 等现象级应用,移动互联网有 iPhone、微信等现象级产品,4G 有抖音/TikTok 等杀手级应用。如果一直没有全民级的 AI 杀手锏应用,AI 产业终将是越吹越大的泡沫,迟早会破。

5.png

(图源:DeepSeek官网)

2、突破了英伟达在 AI 算力领域的封锁,突破了“OpenAI+英伟达”的制霸联盟,让更多软件 AI 开发者与芯片开发者可以抓住和推动 AI 浪潮,而这将进一步影响 1。深层来看,DeepSeek 也将助力世界各国突破美国在 AI 产业的制霸野心,让好的技术成为人人可用的工具,让所有主体在AI面前人人平等。

3、开源力量的胜利,将让 AI 产业进行百家争鸣的创新阶段。DeepSeek 为 AI 行业提供了一个全新的开源范式,并且直观地展现了开源所带来的收益和效果。从闭源到开源,这或许就是 AI 生态的一个里程碑式的转折点。高手在民间,真正的创新一定来自于成败上千万的开发者,而不是少数巨头。

毫无疑问,华丽出水的 DeepSeek 和它的团队,在这个春节期间惊艳了世人,也真正意义上改变了世界。

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章