1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

HelloKitty • 2025-04-07 15:31

扫一扫在手机阅读、分享本文

1468

本文由硅星人Pro 撰写/授权提供，转载请注明原出处。

以下文章来源于：硅星人Pro

作者：王兆洋

Llama4 来了。

4 月 5 日，Meta 发布了外界期待许久的Llama4系列开源模型，目前它包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。三种模型对应不同的使用需求，简单来说：

Llama 4 Scout 是可以在单张 H100 上跑的多模态 MoE 模型，

Llama 4 Maverick 是击败了 GPT-4o 和 Gemini 2.0，比 DeepSeek v3 小但编码和推理能力匹配的“最佳模型”，

还有一个即将发布的、隐藏在后为所有 Llama4 系列提供能力的 2880 亿活跃参数“巨兽”模型 Llama 4 Behemoth。

根据它官方发布的介绍，此次 Llama4 有几个重要的技术亮点。

MoE 架构：此次是 Llama 首次采用混合专家架构，任务执行时仅激活部分参数（如 Maverick 总参数 4000 亿，活跃参数 170 亿），显著提升训练和推理效率。

多模态融合：早期融合（Early Fusion）策略统一处理文本、图像、视频，突破传统多模态模型的分阶段处理限制。

超长上下文：Scout 支持 1000 万 Token 上下文窗口（约 2000 万字文本或 20 小时视频），通过 iRoPE 架构实现“短序列训练，长序列泛化”。

部署上，Scout 支持单张 H100 GPU 运行（Int4 量化后），Maverick 需 H100 DGX 集群，Behemoth则夸张地使用了 32000 块 GPU 训练。

后训练策略：采用“轻量级 SFT → 在线 RL → 轻量级 DPO”流程，减少对齐约束，增强模型探索能力。引入“自我批判式数据筛选”，利用早期模型 Check point 检查点过滤低质量训练样本，提升最终性能。

由于 Behemoth 这个巨大参数的模型此次并没有正式发布，另外两个模型并没有太过让人震惊的突破——尤其在刷新评测榜单这件事已经没那么重要的今天，人们对 Llama4 的期待在于它的技术思路上是否有新玩意。

从目前官方给的说明来看，它自己总结的几个重要的创新在于：

原生多模态的预训练融合方法

Llama 4 模型设计为原生多模态，通过早期融合（early fusion）无缝整合文本和视觉标记到统一的模型主干中。早期融合是一大进步，使 Llama 能够联合预训练大量未标记的文本、图像和视频数据。Llama 还改进了 Llama 4 的视觉编码器——基于 MetaCLIP——但与冻结的 Llama 模型联合训练，以更好地和LLM结合。

优化 MoE 专家超参数设置的 MetaP；

Llama 开发了一种新训练技术 MetaP，能够可靠设置关键模型超参数，如每层学习率和初始化规模。Llama 发现所选超参数在不同 batch size、模型宽度、深度和训练 token 数中可以很好的匹配。Llama 4 通过在 200 种语言上预训练（包括超过 100 种每种超过 10 亿 token 的语言），总体的多语言训练 token 比 Llama 3 多 10 倍。

对注意力机制做改进，从而突破上下文能力的 iRoPE 架构；

Llama 4 架构的一个关键创新是使用了交错注意力层，且不使用位置嵌入（positional embeddings）。此外，我们还采用了推理时注意力温度缩放（ inference time temperature scaling of attention）来增强长度和泛化。我们将这种架构称为 iRoPE 架构，其中“i”代表“交错”注意力层，突出了支持“无限”上下文长度的长期目标，“RoPE”则指在大多数层中使用的旋转位置嵌入。

SFT、RL 和 DPO 使用搭配上的新配方

在 Llama 4 中，Llama 通过采用不同方法重构了后训练流程：轻量级监督微调（SFT） > 在线强化学习（RL） > 轻量级直接偏好优化（DPO）。关键经验是，SFT 和 DPO 可能过度约束模型，限制在线 RL 阶段的探索，导致推理、编码和数学领域的次优准确性。

后训练一个拥有 2 万亿参数的模型也是一大挑战，需要 Llama 彻底改造配方，从数据规模开始。为最大化性能，Llama 不得不修剪 95% 的 SFT 数据（相比小型模型的 50%），以实现质量和效率的必要关注。

为 2 万亿参数模型扩展RL还需要 Llama 改造底层RL基础设施，因其规模前所未有。Llama 优化了 MoE 并行设计以提高速度，加快了迭代。Llama 开发了一个完全异步的在线 RL 训练框架，增强了灵活性。与牺牲计算内存以在内存中堆叠所有模型的现有分布式训练框架相比，Llama 的新基础设施支持将不同模型灵活分配到单独 GPU 上，根据计算速度平衡多个模型的资源。这一创新使训练效率比前几代提高了约 10 倍。

这些创新与大家对今天开源模型竞赛的预期相比，可能会略微让人失望。

原生多模态的做法基本依然是行业的常规操作——把其他模态与最强的语言模态在 token 层面上统一；MetaP 背后强调的不同尺寸的高效转化，让人想到诸如面壁智能提出的“densing law”，如何在小一点的参数上做实验，预测出更大参数的表现；对注意力的改进也在过去几个月有诸多尝试，无论是月之暗面的 MoBA，DeepSeek 的 NSA 还是 MiniMax-01 对 Lighting Attention 的激进的融合，似乎 Meta 的尝试并没有比这些带来更彻底的效果；而在 SFT，RL 和 DPO 的“炼丹”上，也反而让 DeepSeek R1 的更纯粹的 RL 方法显得更简洁优雅。

与 Llama 过往作为开源执旗者时相比，通过开源给社区提供对抗闭源模型强大的新方法的意味少了很多，结合其他更彻底的开源模型公布的各种技术来快速交出一个作品来先跟上领先者的意味更强了。这次的模型与此前 Llama2 和 Llama3 发布时的影响完全不同，它不是碾压式领先的发布，也许之后的 Behemoth 才是主菜，这次只是开胃菜。但目前看来，Behemoth 的最大亮点可能还是在它背后的算力资源，Meta 表示，Behemoth 使用 FP8 和 32K GPU 训练，实现了 390 TFLOPs/GPU。

这些都在提示这一次 Llama4 发布的仓促。这次 Llama 在行业对推理模型需求爆炸，对很看重编程能力的 AI Agent 类产品兴趣浓厚的时候，没有先发布推理模型，而是继续通过做大底座模型来提高推理和编程能力。在通过 Scout 强调部署便利的同时，却又没有可以在本地运行的尺寸的模型。

整体看来，Llama4 像是 Meta 先给自己一个“台阶”——在 DeepSeek 爆火之前，它坚持不用 MoE 架构，这次算是完成了纠错。