你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

DeepSeek才是“真正的OpenAI”？

HelloKitty • 2025-01-23 11:24

扫一扫在手机阅读、分享本文

4941

本文由甲子光年撰写/授权提供，转载请注明原出处。

文章来源于：甲子光年

作者：王艺

编辑：赵健

“爆打奸商 OpenAI。”

“DeepSeek 才是真正的‘OpenAI’！”

还有人做了一幅赛博对联：“上联：真本事酒香不怕巷子深。下联：不公关真金不怕火来炼。横批：DeepSeek。”

这是昨晚推理模型 DeepSeek R1 发布之后的评论区，清一色为 DeepSeek 的叫好声。而与此形成对比的是，大洋彼岸的 OpenAI，正在遭遇 o3 的打假风波。有人爆料称，o3 之所以在数学基准 FrontierMath 上取得惊人的成绩，是因为 OpenAI 资助了 FrontierMath，并且可以访问大部分数据集。

OpenAI 的推理模型 o1 与 o3 都是闭源模型。在其网站上有关 o1 模型的技术原理中，有信息量的其实只有短短的一句话：o1 模型通过大规模强化学习进行训练，以使用思维链（chain-of-thought）进行推理。而更多的技术细节则只字未提。

而 DeepSeek，则直接开源了一篇 20 多页的详细技术报告。

英伟达 AI 科学家 Jim Fan 称赞 DeepSeek 是“真正开放的前沿研究，赋能所有人”，并直言 Deepseek 才是保持初心的“OpenAI”。

强化学习引导“顿悟时刻”

DeepSeek R1 发布的论文中提到，提升推理能力的一种有效办法是“后训练”（post-training），主要包括监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）两个方向。

SFT 的使用是 ChatGPT 当初成功的关键，而今天的 R1 Zero 完全用 RL 取代了 SFT。可以说，此次 DeepSeek R1 发布最大的亮点，就是“没有监督微调下的直接强化学习”。

此次 DeepSeek 开源了三个系列的模型，分别是 DeepSeek-R1-Zero、DeepSeek-R1 推理大模型和六个稠密小模型。其中，DeepSeek-R1-Zero 直接将 RL 应用于基础模型而无需任何 SFT 数据；DeepSeek-R1 从使用数千个长思维链（CoT）示例微调的检查点开始应用 RL；六个稠密小模型则基于 Qwen 和 Llama，从 DeepSeek-R1 蒸馏得到。

DeepSeek 团队做的第一件事，就是尝试“零监督”直接对基础模型进行大规模强化学习训练（即纯 RL），得到了 DeepSeek-R1-Zero。

具体而言，他们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为 RL 框架来提高模型在推理方面的性能。它不再引入与模型同等规模的 Critic 网络，而是把一次性采样到的一组输出互相做对比，就像让模型在同一个问题上输出多个答案，比较每个答案得分的高低，得分高的就学“该怎么写”，得分低的则学“不要那样写”。

接着，DeepSeek 团队设计了一组基于规则的奖励系统（包含准确性奖励和格式奖励两种模型），通过不断告诉模型“什么是好”的方式，反复训练模型。

经过数千次 RL 步骤后，DeepSeek-R1-Zero 的推理性能稳步提升：不仅大幅提高了在数学、编程等推理任务上的准确率，甚至学会了很多惊喜的“自发行为”，比如反思自己的答案，进行多次思考迭代等，甚至出现了“顿悟时刻（aha moment）”。顿悟时刻不仅证明了模型推理能力的不断增长，也是对强化学习所能产生复杂结果的绝佳说明。

DeepSeek-R1-Zero中级版本的“顿悟时刻”，模型学会重新思考，并使用拟人化的语气

报告显示，DeepSeek-R1-Zero 在 AIME 2024 上的 pass@1 分数从 15.6% 提高到了 71.0%，通过多数投票，分数进一步提高到 86.7%，与 OpenAI-o1-0912 的性能相匹配。

DeepSeek-R1-Zero在训练过程中的AIME精度，图源：DeepSeek技术报告

然而，DeepSeek 的团队发现，DeepSeek-R1-Zero 的这种“自发行为”有时也带来缺点，比如文字可读性差、语言混乱等。为了解决这一问题，他们设计了一个四阶段的流程，让模型从“能思考”到“会表达”，DeepSeek-R1 也就此诞生。

具体而言，DeepSeek 团队先收集了少量的高质量长链式推理数据（Long Chain-of-Thought），让模型在上面做一个初步的监督微调（SFT）作为冷启动；接着使用类似 DeepSeek-R1-Zero 的强化学习方法训练模型；得到通过 RL 训练后模型产出的较大规模推理数据和通用 SFT 数据后，通过“拒绝采样（Rejection Sampling）”的方法训练和微调 DeepSeek-V3 这一基座模型；最后再整体进行一次“全场景强化学习（Reinforcement Learning for all Scenarios）”，最终得到了 DeepSeek R1。

冷启动阶段的引入，帮助模型跳过了纯RL初期可能的混乱状态；RL帮助模型提升了在推理任务上的表现；拒绝采样+监督微调的方法让模型保留了正确或可读性高的回答，最后一轮全场景的RL则让模型在所有场景（比如聊天友好度、礼貌性、无害性、安全性等）中尽量满足人类偏好。

通过这种方法训练出的 DeepSeek-R1 达到了世界顶尖模型的性能，从图中可以看出，DeepSeek-R1 在 AIME2024 上获得了 79.8% 的成绩，略高于 OpenAI-o1-1217；在 MATH-500 上，它取得了 97.3% 的惊人成绩，表现与 OpenAI-o1-1217 相当，并明显优于其他模型；在编码相关的任务中，DeepSeek-R1 在代码竞赛任务中表现出专家水平，在 Codeforces 上获得了 2029 Elo 评级，竞赛中的表现优于 96.3% 的人类参与者。对于工程相关的任务，DeepSeek-R1 的表现略优于 OpenAI-o1-1217。

DeepSeek-R1在各项基准评测集上的表现，图源：DeepSeek技术报告

不仅开源了 DeepSeeK-R1，DeepSeek 还直接开源了从超小模型 1.5B，到 70B 的各种型号模型。这些小模型是 DeepSeek 团队训练好的 DeepSeek-R1 基础上，用 Qwen 和 Llama 等开源模型“蒸馏”的——先使用 DeepSeek-R1 作为教师模型生成 800K 数据，再用这些数据对几个小模型进行微调。相当于把老师的推理思路“蒸馏”到了学生身上。

小模型的性能同样令人惊喜：DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试上优于 GPT-4 和 Claude-3.5-Sonnet，在 AIME 上得分为 28.9%，在 MATH 上为 83.9%；其 32B 和 70B 的模型在多项能力上更是实现了对标 OpenAI o1-mini 的效果。

DeepSeek-R1-Distill-Qwen-7b全面优于GPT-4o-0513等非推理模型图源：DeepSeek技术报告

蒸馏模型和强化模型在推理相关基准上的比较，图源：DeepSeek技术报告

综上，DeepSeek-R1 展现了一种非常清晰的模型训练思路——数据即模型。DeepSeek-R1-Zero 很可能只是用来给 DeepSeek-R1 生成推理数据的，而“数据的调配”是 DeepSeek-R1 训练过程中平衡不同任务策略的基石。此外，DeepSeek-R1 的超强性能也证明了模型的能力仍未见底，而特定的数据是进一步挖掘模型能力的关键。

大道至简：

用 Rule-based 写一封给 RL 的情书

除了“数据即模型”的训练思路，DeepSeek-R1 另一个突出的价值或许在于，它证明了“基于一个很强的模型、用最简单的 Rule-based 奖励来做 RL、经过大量训练，也能达到最强推理模型的效果”。

一个系统越简洁就意味着实现难度越大。正如 AlphaGo 早期也是走类似 SFT 的“监督学习（Supervised Learning，SL）”的路线，后来经历了三个版本的迭代后，才推出了无需人类棋谱、可以自我对弈训练的 AlphaGO Zero 和 Alpha Zero，转向了完全的强化学习（RL）。

Rule-based（基于预定义规则的决策方法）是大模型在做可证实任务（verifiable task）中最直观、也是最可靠的奖励方式，但同时也是最难的——正是因为规则简洁，所以模型在外界找不到足够多的奖励信号，难以通过试错找到有效的策略。

因此，在复现 OpenAI o1 的道路上，众多模型厂商一直在艰难探索什么样的奖励方式才是更适合强化学习的——

早期过程奖励模型（PRM）是各大厂商的首选，但是由于其依赖高质量的人类偏好数据、数据收集和标注的成本极高，且训练不稳定、容易发生 Reward Hacking（奖励破解，指智能体通过利用奖励函数的设计缺陷，找到一种非预期的方式最大化奖励，而不是真正完成目标任务）现象，后来被很多团队弃用；

后来人们又探索出了基于结果的奖励模型（ORM），比如 OpenAI 在开发 InstructGPT 时将 ORM 用于评估生成文本的质量，Qwen、Eurus、Moss 模型在 RLHF 阶段也会采用 ORM 来确保生成的内容的流畅性和安全性。但是ORM难以捕捉复杂的、隐式的奖励信号，而且在某些主观性强的任务下可能也无法准确反映真实目标。

此外，像逆强化学习奖励模型（Inverse Reinforcement Learning, IRL）、分层奖励模型（Hierarchical Reward Model）等其他的奖励模型也各有各的问题。

在训练 DeepSeek-R1 系列模型的的过程中，DeepSeek 同样遇到了此类问题。比如他们在尝试过程奖励模型（PRM）的时候，发现虽然模型在重新排序模型生成的前 N 个回答或协助引导搜索方面表现出一定的能力，但在大规模强化学习过程中的优势是有限的；再比如，在尝试蒙特卡洛树搜索（MCTS）的过程中，遇到了搜索空间爆炸、价值模型训练困难等重大挑战。

因此，行业的风向也在逐渐回归 Rule-based，但前提是，要给定足够多的 Query（问询），以确保 Rule-based 过程中对于各种突发情况的覆盖，才能减少偏差，增强模型的泛化性和通用性。

比起其他厂商，DeepSeek 做 Rule-based 有一个巨大的优势——他们不仅拥有足够强的基座模型（DeepSeek-V3），其 DeepSeek-Math/DeepSeek-Coder 系列模型更是在多年做量化投资的过程中积累了大量数据，可以很好地用 Rule-based 的方法，在大量训练的基础上实现更好的推理效果。

正如 NLP 科学家 Casper Hensen 在 X 上发帖表示，“我的大脑拒绝接受这个强大模型的训练过程竟然可以如此简单”。但他拒绝接受的事实确实在 DeepSeek 身上发生了。

真正的开放 AI 在中国？

从 2024 年 9 月 OpenAI 发布 o1-preview 到现在，仅仅过去了不到四个月，市场上媲美甚至超越其性能的推理模型就已遍地开花：

2024 年 11 月 17 日，Kimi 发布数学推理模 k0-math；

2024 年 11 月 20 日， DeepSeek 发布 R1-lite-preview；

2024 年 11 月 27 日，Qwen 发布 Qwen/QwQ-32B-Preview；

2024 年 12 月 19 日， Google 发布 Gemini 2.0 Flash Thinking；

2025 年 1 月 20 日，DeepSeek 发布 R1 系列模型；

2025 年 1 月 20 日，Kimi 发布 k1.5 多模态思考模型。

在这众多的模型之中，DeepSeek 不仅率先实现了媲美 OpenAI-o1 模型的效果，更是将推理模型的成本压缩到了极低——基于 R1 模型的 DeepSeek Reasoner 每百万输入 token 成本为 0.55 美元（4 元/百万 tokens），每百万输出 token 成本为 2.19 美元（16 元/百万 tokens），相比 OpenAI-o1 的每百万输入 token 成本为 15 美元、每百万输出 token 成本为 60 美元，下降了约 95%；

DeepSeek R1 API价格，图源：DeepSeek

DeepSeek R1模型与o1类推理模型输入输出价格对比，图源：DeepSeek

这样的价格策略，不仅为中小企业带来了希望，还传递出一个信号：AI 不再是少数精英企业的专属，它将成为全球各行各业的基础工具。

低价还只是其次。更重要的是，DeepSeek R1 系列模型，是开源的。

“开源”这两个字对很多人来说，是“技术自由”的代名词，OpenAI 创立的初衷，也是作为一家非营利组织，希望“以最有可能造福全人类的方式推进数字智能发展，而不受产生财务回报需求的限制。”然而，由于商业化压力、对模型滥用的担忧、构筑技术壁垒、内部价值观冲突等等的原因，OpenAI 在 GPT-3 发布之后限制了对模型的访问权限，仅通过 API 提供服务，在 GPT-4 发布之后更是隐藏了其训练数据和模型权重、完全走向了“闭源”。这极大背离了其创立时的初衷，也让人们在探索 AGI 的道路上多了些波折。

尽管 OpenAI 的做法有其自己的考量，但人类需要开源。开源不仅是技术上的“开放”，更是对商业和产业链上下游合作的重新定义。它为更多创新提供了诞生的土壤，也让全球的开发者可以共同参与进来，探索人工智能的下一个边界。

而 DeepSeek 开源的选择，正是这种“美美与共”精神的体现。换句话说，DeepSeek-R1 的低价和开源战略，实际上在构建一个更加开放和包容的 AI 生态。而在 DeepSeek 等开源模型厂商的共同努力下，一个全人类共同为 AGI 奋斗的时代，似乎离我们不远了。

（封面图来源：DeepSeek Github）

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：AI眼镜会是下一个智能音箱吗？

下一篇：诉讼频发！AI训练“盗用”版权内容，建立共享数据库...

热门文章

花21亿收购上市公司，智元、宇树怎么都抢着上市？

花21亿收购上市公司，智元、宇树怎么都抢着上市？

2025-07-10

厮杀万亿级市场，阿里京东美团短兵相接

厮杀万亿级市场，阿里京东美团短兵相接

2025-07-08

大模型退火之后，AI手机还好吗

大模型退火之后，AI手机还好吗

2025-07-08

AI重塑BAT的三种未来

AI重塑BAT的三种未来

2025-07-08

Manus大规模裁员，将总部迁至新加坡并百万年薪招聘

Manus大规模裁员，将总部迁至新加坡并百万年薪招聘

2025-07-09

AI六小虎，胜利大逃亡？

AI六小虎，胜利大逃亡？

2025-07-11

OpenAI宫斗加剧，Meta高薪截胡奥特曼

OpenAI宫斗加剧，Meta高薪截胡奥特曼

2025-07-09

为什么我建议你，在AI时代多做点无用功？

为什么我建议你，在AI时代多做点无用功？

2025-07-10

机器人足球比赛，真是把人笑到了

机器人足球比赛，真是把人笑到了

2025-07-09

Manus跑路了吗？

Manus跑路了吗？

2025-07-11