HelloKitty • 2025-04-18 11:20
891
本文由 硅星人Pro 撰写/授权提供,转载请注明原出处。
以下文章来源于:硅星人Pro
作者:周一笑
距离 OpenAI 发布 GPT-4.1 仅仅过去两天,OpenAI 在本周再次投下“重磅炸弹”——正式发布了其 o 系列的两个新模型:o3 和 o4-mini。
这次发布的核心被 OpenAI 联合创始人 Greg Brockman 和首席研究官 Mark Chen 形容“向未来迈出的质的一步”。这两个新模型不仅在传统的编码、数学、科学等领域展现出“迄今为止最强”的推理能力,更重要的是,它们被训练成了能够主动、智能地使用和组合工具来解决复杂问题的“AI 系统”,并且首次实现了“用图像思考”。
简单来说,你可以把 o3 和 o4-mini 想象成更聪明的“大脑”,它们不仅知识储备更丰富、逻辑更严谨,还学会了像人一样,遇到难题时知道去网上查资料(网页搜索)、用计算器(执行 Python 代码分析数据/文件)、看图表(视觉输入推理),甚至自己画图(生成图像)。这标志着 ChatGPT 向着一个能更独立自主完成任务的智能体方向迈出了关键一步。
新的 o3、o4-mini 及 o4-mini-high 将从即日起开始替换 ChatGPT Plus、Pro 和 Team 用户模型选择器中的 o1、o3-mini 和 o3-mini-high。免费用户也有机会通过特定的“Think”选项体验 o4-mini。开发者可通过 API 使用 o3 和 o4-mini,OpenAI 预计在几周内发布 o3-pro。
那么,这两个新模型具体强在哪里?OpenAI 官网和直播演示给出了详细解答。
o3:旗舰级推理引擎
具体到两个模型,o3 定位为 OpenAI 当前最强大、最前沿的推理引擎。它在编码、数学、科学和视觉感知等需要深度思考的领域表现尤为突出,是处理那些答案不明显、需要多方面综合分析的复杂查询的理想选择。
根据外部专家的严格评估,在处理困难的现实世界任务时,o3 犯下的严重错误比其前代旗舰 o1 减少了 20%,尤其在编程、商业咨询和创意构思方面进步显著。发布会上的例子令人印象深刻:o3 不仅能分析物理学研究海报并推断出未明确说明的结果,还能将其与现有文献进行对比。
在另一个例子中,它甚至成功解决了构造一个特定性质的 19 次多项式这样的高难度数学问题,其推理过程和结果的准确性远超 o1 的表现。早期测试者也普遍反馈,o3 作为“思考伙伴”时展现出的分析严谨性,以及在生物、数学、工程等领域生成和批判性评估新颖假设的能力,都令人印象深刻。在包括 Codeforces、SWE-bench 和 MMMU 等基准测试中创下了新的 SOTA。
o4-mini:高性价比的“小钢炮”
o4-mini 则是一款针对速度和成本效益优化的“小钢炮”。虽然体量更小,但它在数学、编码和视觉任务上实现了“令人瞩目的性能”,堪称“以小博大”的典范。它在 AIME 2024 和 2025 数学竞赛基准上的表现甚至超越了更大的模型。专家评估也指出,即使在非 STEM 领域和数据科学方面,o4-mini 也优于其前代 o3-mini。得益于更高的效率,o4-mini 能够支持比 o3 显著更高的使用限制,这使其非常适合需要进行大量推理、高吞吐量的应用场景。同时,OpenAI 表示,o3 和 o4-mini 在交互时也应该感觉更自然、更像对话,能更好地利用记忆和上下文信息,并提供带有网络来源引用的、更可验证的回应。
o3-mini 和 o4-mini的成本与性能对比
o1 和 o3的成本与性能对比
值得关注的是,智能化程度的提升并未必然带来成本的增加。OpenAI 强调,在许多实际应用场景中,o3 和 o4-mini 可能比它们的前代 o1 和 o3-mini 更高效,甚至更便宜。官网展示的 AIME 数学竞赛成本-性能曲线清晰地表明,o3 在相同成本下性能优于 o1,而 o4-mini 则优于 o3-mini。这背后,是 OpenAI 在强化学习规模化上的持续投入——据透露,开发 o3 所使用的训练计算量是 o1 的十倍以上,验证了“更多思考时间=更好性能”的趋势同样适用于强化学习。
在定价方面,o3 的每百万输入 token 收费为 10 美元,输出 token 为 40 美元;而 o4-mini 的价格仅为其十分之一左右,分别为 1.1 美元和 4.4 美元。
不止于聪明,更在于“全能”
Agentic Tool Use 是本次发布的亮点之一。过去的模型虽然也能调用工具,但往往是被动执行指令。而 o3 和 o4-mini 则被训练得能够思考何时以及如何使用工具来给出详尽、周到的答案。它们可以根据问题的复杂性,自主决定调用网页搜索获取最新信息、运行 Python 代码进行数据分析和预测、理解用户上传的图片内容,甚至生成图表或图像来辅助说明。
当用户提出“加州今年的夏季能源消耗与去年相比如何”这样的问题时,模型会自动搜索公共数据源,结合实时信息编写并执行分析代码,生成图表直观展示对比结果,并解释其中的关键影响因素,整个过程通常在一分钟内完成,体现出强大的搜索、推理与多模态协同能力。
直播中 Greg Brockman 还提到,o3 在解决一个复杂任务时,曾被观察到连续调用了高达 600 次工具。
另一个突破是视觉理解能力。o3 和 o4-mini 不再仅仅是“看到”图片,而是能将图像信息直接整合进它们的“思考链”中。用户可以上传白板照片、教科书图解、手绘草图,即使图片模糊、颠倒或质量不高,模型也能尝试理解。
更进一步,结合工具使用能力,模型可以在推理过程中动态地操作图片,比如旋转、缩放或转换图像,以更好地辅助分析。这使得它们在多模态基准测试中达到了新的SOTA(State-of-the-Art)水平,能够解决以前难以处理的视觉推理问题。例如,o3 在 MathVista(视觉数学推理)上准确率达到 86.8%,在 CharXiv-Reasoning(科学图表推理)上达到 78.6%。
在演示中,OpenAI 的 Brandon McKenzie 向o3 展示了一张关于质子等矢标量荷的物理海报,并要求它找到研究结果并与最新文献对比,实际上该结果并未写在海报上。o3 准确识别了相关图表,推理出计算方法,并联网查找最新估计值,指出原始数值需重整化才能与当前研究对齐,展现了其理解图像、推理及使用工具完成复杂科研任务的能力,节省了时间。
发布编程工具 Codex CLI
伴随着能力的飞跃,安全问题也得到了前所未有的重视。OpenAI 表示,他们为 o3 和 o4-mini 彻底重建了安全训练数据集,特别加强了在生物风险、恶意软件生成、越狱企图等敏感领域的拒绝能力。此外,还部署了系统级防护,引入了一个基于人类可解释规范训练的推理 LLM 监控器,用于主动标记生物风险等前沿风险领域的危险提示,据称在内部红队测试中成功标记了约 99% 的相关对话。依据其最新的《准备框架》(Preparedness Framework),经过严格评估,o3 和 o4-mini 在生物化学、网络安全和 AI 自我改进这三个关键风险领域的能力水平均被认定低于“高”风险阈值。
为了进一步赋能开发者社区,OpenAI 还推出了一个名为 Codex CLI 的实验性新工具。这是一个轻量级的编码助手,可以直接在用户的终端命令行运行,旨在充分发挥 o3、o4-mini 等模型强大的推理能力,连接本地代码环境,甚至支持处理截图或草图进行多模态编程。Codex CLI 已在 GitHub 上完全开源。
在直播演示中,OpenAI Agent 研究团队成员 Michael 为了展示 Codeex CLI 的功能,截取了一张在 X 上关于一个“图像到 ASCII 风格转换”工具的推文截图。他将这个截图直接拖入终端,通过 Codeex 并利用 o4-mini 的多模态推理能力,最终成功创建了一个简单的 ASCII 风格图像转换工具。
新的发布之后,行业内的初步反响并非全然是掌声。一些观点仍然认为这次发布更像是仍然是增量式进步,虽然迭代速度更快了,但并未带来颠覆性的飞跃或震撼性新功能,这或许反映了整个 AI 行业在激烈竞争下面临的巨大“快速交付”压力。
同时,开源社区中也存在一些失望的声音,指出尽管模型能力日新月异,但 OpenAI 仍未推出真正强大的开源模型,这让部分期待开放生态的开发者发出了“Wake me up when they release something open”(等他们发布开源模型再叫醒我)的调侃。
在发布的技术光环之外,市场层面的动态也值得关注。发布会前后,彭博社和 CNBC 等媒体报道称,OpenAI 可能正就以高达 30 亿美元收购 AI 编程工具初创公司 Windsurf(前身为 Codeium)进行谈判。Windsurf 的产品利用 AI 辅助开发者编写、解释代码,其部分功能已集成 OpenAI 模型。若收购属实,无疑将极大增强 OpenAI 在开发者工具和代码生成领域的布局。
Windsurf在第一时间提供o4-mini的免费体验
总体来看,OpenAI 发布的 o3 和 o4-mini,在 Agentic 能力和多模态深度融合方面继续迈近,这不仅仅是模型变得更聪明了,更是朝着能够真正理解并与我们复杂世界进行交互的“通用智能体”的一步。从发布节奏来看,OpenAI 的再次提速,留给竞争对手和整个行业思考的时间,似乎又变少了。
扫码关注公众号
获取更多技术资讯