DeepSeek R2模型来了!终于轮到国产AI“炸裂”了

HelloKitty 2025-03-03 14:14

扫一扫 在手机阅读、分享本文

1156

本文由 智能Pro 撰写/授权提供,转载请注明原出处。

以下文章来源于:智能Pro

作者:失魂引

DeepSeek-R1 的热度尚未消散,DeepSeek-R2 就要来了?

日前路透社报道称,三位知情人士透露,原计划今年 5 月发布的 DeepSeek-R2 模型,正在加速开发,或将提前发布,新模型有望可以生成更好的代码,并且使用英语之外的语言进行推理。对此,DeepSeek 母公司幻方量化回应称,以官方消息为准。

考虑到 DeepSeek 成立于 2023 年 7 月 17 日,至今不满两年时间,已开发出了涵盖编程、数学推理、大语言、多模态、对话等不同场景的多个模型。今年 5 月前推出 R2 模型,属于 DeepSeek 大模型的正常更新频率。从 R1 模型到 R2 模型,DeepSeek 正在改变 AI 行业。

巨头惊慌失措,R1 模型创下奇迹

2023 年 3 月 OpenAI 发布 GPT-4 后,整个 AI 行业不但没有因这款大模型的到来更加活跃,反而显得有些沉寂。哪怕后续 OpenAI 接连推出了 GPT-4o、o1、Sora 等大模型,其他企业也纷纷推出了各种大语言、视频生成、多模态模型,却未能再现 GPT-3 到 GPT-4 的突破性进展。

直到 DeepSeek-R1 的到来,仿佛为 AI 行业注入了活力,让各行各业都积极拥抱 AI 和 R1 模型。R1 模型的能力得到证实后,国内手机、电视、PC 等行业大量企业纷纷为旗下的产品接入了 R1 模型。

QQ20250226-181815.png

(图源:DeepSeek)

以手机行业为例,华为、荣耀、OPPO、vivo 率先官宣,为智能助手接入 R1 模型,小米略作犹豫后也选择跟进,为超级小爱接入了 R1 模型。日前著名数码博主@i冰宇宙爆料称,三星也在积极推进为国行版机型接入 R1 模型的工作。

不仅如此,腾讯、百度、360 等互联网企业,虽已组建 AI 团队,开发出了自己的大模型,但依然选择为旗下的 AI 工具接入 R1 模型。可见,就连其他 AI 企业,也承认了 R1 模型在某些领域领先自己。

更关键的是,R1 模型诞生之前 AI 工具虽以免费使用为主,可不乏收费服务的平台,例如 ChatGPT 和文心一言。OpenAI 为了实现盈利,甚至放弃了开源模式,从 OpenAI 变成「CloseAI」,百度更是闭源方案的拥趸。

然而在 R1 模型的冲击下,这两家企业也改变了原有路线。百度宣布文心一言将从 4 月 1 日起免费为用户提供服务,并于 6 月 30 日正式开源。OpenAI 则承诺,免费版 ChatGPT 在标准模式下可无限制使用 GPT-5,其 CEO 山姆·奥特曼还在X平台表示,将打造开源项目,并向网友们征集意见,究竟打造仍需在 GPU 上运行的 o3-mini 模型,还是能力强大的端侧模型。

探究 DeepSeek-R1 训练成本低的原因.png

(图源:豆包AI生成)

DeepSeek 还通过 R1 模型证明了通过知识蒸馏、混合并行策略、动态稀疏训练、即时编译、层次化稀疏注意力等技术,大幅压缩 AI 大模型训练成本的可能性。过去 AI 企业训练大模型,不但需要用到规模庞大的算力集群,还需要大量数据,OpenAI 甚至招聘人员编写数据供大模型训练所用。马斯克旗下的 xAI 为训练 Grok 3 模型,不惜搭建了一个具有 10 万张 GPU 的全球最大算力集群。

长此以往,AI 未必不会变成互联网巨头比拼财力的游戏,最终因数据量的不足进展缓慢。DeepSeek 之所以能够给AI行业带来巨大的冲击,能力强、训练成本低、开源三大因素缺一不可。尤其是采用指令集框架 PTX 和 CUDA、ROCm、OpenCL 等底层指令都封装为统一接口的特性,让其不再依赖 NVIDIA GPU,能够更加自由的部署在各种设备上。

在 R1 撬动了 AI 行业的地基后,DeepSeek 并未止步不前,如今 R2 模型即将到来,或将接力 R1 模型,进一步改变 AI 行业。

延续低成本、高性能传统,

R2 模型拉满期待值

R1 模型逻辑推理能力不输字节跳动、阿里巴巴、月之暗面等企业花高成本训练出的大模型,对标行业领导者 OpenAI 开发的 o1 模型。但 OpenAI 不只有 o1 模型,ChatGPT 专业版会员已能够使用更强的 o1 Pro 和 o3 模型。在 R1 模型追上 o1 模型后,R2 模型自然要向 o3 模型发起挑战。

在动态稀疏架构、量化知识蒸馏、混合专家(MoE)架构与多头潜在注意力(MLA)等技术的加持下,DeepSeek 训练 R2 模型的成本有望进一步降低。开发训练数据与模型参数的共适应系统,则可动态调整数据与模型参数的协同关系,提升机器学习系统的效率、泛化性和适应性。

最近几天 DeepSeek 每天都会公开一批开源代码库,其公布的 DeepGEMM 采用 FP8 通用矩阵乘法,支持稠密和 MoE 模型,仅 300 行代码即可实现超越专家优化的内核,能够降低 AI 大模型的推理成本,该技术自然也要被用于 R2 模型。

探究 DeepSeek-R1 训练成本低的原因 (1).png

(图源:豆包AI生成)

R1 模型的论文中提到,RL(强化学习)数据的增加,不仅可以提升 AI 大模型面对复杂任务时的推理能力,还会自发地出现一些复杂行为能力,比如反思和探索不同方法。现阶段 R1 模型所拥有的 RL 数据较少,未来版本将会大幅增加。

综合来看,R2 模型与 R1 模型相同,基于 V3 底座,对标OpenAI o3模型,以常规升级为主。在更多RL数据的支持下,R2 模型有望提高推理能力和响应速度,并依靠「反思」能力,生成更准确的推理结果。

未来将诞生的 V4,对标 OpenAI 计划在今年中期发布的 GPT-4.5。基于 V4 底座+RL 开发的 R3 模型,竞争对手则是 OpenAI 下一代模型 GPT-5。

除了成本和能力方面的提升,R2 模型要将把开源理念推向新高度。从 o1 模型开始,OpenAI 强化了闭源理念,不但大模型不再开放,就连思维链也被取消,甚至警告用户使用提示词诱导模型输出完整思维链会被限制账号,GPT-4.5 将成为 OpenAI 最后一个独立发布的基座模型。GPT-5 将进入混合模型时代,让 AI 大模型彻底变成「黑盒」模式。

探究 DeepSeek-R1 训练成本低的原因 (2).png

(图源:豆包AI生成)

DeepSeek 坚持开源理念,允许其他企业或个人部署、使用、修改、分发 R2 模型,持续推动 AI 行业的发展。360 CEO 周鸿祎曾表示,没有开源就没有 Linux、没有互联网,甚至包括我们自己借助了开源技术才能发展至今。闭源固然有机会获取更多营收,但开源才能加快行业向前迈进。

从 GPT-4 发布以来,AI 大模型虽不断进步,却不再有划时代的改变。R1 模型依靠低成本、高性能的特性,一定程度改变了 AI 行业。R2 难以复刻 R1 的盛况,但推理能力方面会有大幅提升,给予其他 AI 企业更大压力。

DeepSeek 成「卷王」,

友商被卷到头疼?

DeepSeek-V1 和 R1 模型发布时间间隔仅 13 个月,R1 模型和 R2 模型之间间隔可能仅有三四个月,堪称「终极卷王」。百度、腾讯、360 等企业可以像之前接入 R1 模型一样,再次接入 R2 模型,但头部互联网企业需要打造出自己的 AI 大模型,而不是指望着 DeepSeek 的开源模型去升级 AI 工具的能力。

就小雷的体验而言,绝大多数国产 AI 大模型在深度思考方面表现不如 R1 模型,仅有少数能够在部分场景下与 R1 模型平分秋色。将要到来的 R2 模型,给了 AI 企业更多压力,他们需要在R2模型上线前,强化自己大模型的能力,避免被 DeepSeek 甩在身后。

借助 DeepSeek 开源模型提高 AI 工具的能力只是权宜之计,百度、腾讯、360 从未放弃 AI 大模型的开发工作,例如百度的文心 4.5 已在路上。

探究 DeepSeek-R1 训练成本低的原因 (3).png

(图源:豆包AI生成)

作为用户,我们自然更倾向于 AI 工具能够同时接入多个模型,方便自己选择最好用的模型。尤其是头部 AI 企业,拥有更庞大的算力规模,接入 R1 模型后执行推理任务时响应更流畅,体验优于 DeepSeek 官网或 App。

DeepSeek 不仅仅带来了能力出众的 R1 模型,所采用的多种低成本方案,还给其他 AI 企业指明了方向,通过知识蒸馏和混合精度等技术,任何 AI 公司都可以实现低成本训练大模型,至于大模型的能力如何,则要看研发人员的实力。

以开源为基调的 DeepSeek 将在 AI 行业起到鲶鱼效应,督促每一家 AI 企业加快新模型的研发工作,并不断探索新方向。

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章