HelloKitty • 2025-08-08 14:30
422
本文由 甲子光年 撰写/授权提供,转载请注明原出处。
以下文章来源于:甲子光年
作者:田思奇
编辑:王博
北京时间 8 月 8 日凌晨 1 点,OpenAI 正式发布新模型 GPT-5。
这一次,预热格外漫长。自从 2023 年 3 月 GPT-4 发布后,业界就开始流传“5”的传说。OpenAI CEO 萨姆·奥尔特曼(Sam Altman)近日又在播客里透露,新模型强悍到让他觉得自己“毫无用途”。
然而有媒体称,OpenAI 内部曾以“猎户座”(Orion)命名的新模型,曾经因为效果不够惊艳被贬为已发布的 GPT-4.5。各种暗示与猜测之中,人们一次次以为它要来了,又一次次被 OpenAI 虚晃一枪。
现在,OpenAI 用一场罕见的超长 75 分钟发布会,揭开了 GPT-5 的全部面纱。
OpenAI CEO萨姆·奥尔特曼亮相GPT-5发布会
聪明,不等于装懂:GPT-5 更诚实了
发布会前夕,奥尔特曼在社交媒体上发布了本文封面图,图片内容疑似《星球大战》中的超级武器“死星(Death Star)”,展现了奥尔特曼对于 GPT-5 的野心。
根据 OpenAI 的说法,GPT-5 是 OpenAI 目前最强的通用模型,在响应速度、准确率、逻辑推理和人类语气方面全面进化。
GPT-5 将在发布当日成为 ChatGPT 的默认模型,下周将发布企业版和教育版,用户无需在不同版本之间切换。它面向所有人开放,Plus 会员可获得更多使用量,Pro 会员可访问 GPT-5 Pro 版本,免费用户在配额使用完后将被分配到 GPT-5 mini 模型。
ChatGPT Plus 会员的最新 App 界面
在发布会开场,奥尔特曼用了一个比喻:GPT-3 和 GPT-4 更像是高中生和大学生,而 GPT-5 则像在任何领域都拥有博士学位的专家。他强调,GPT-5“快得让人怀疑它是否真的思考过,但它确实在思考”,这句话也成为许多现场工程师反复引用的评价。
“快”和“思考”之间的张力,体现了 GPT-5 这次更新的核心。用户以往只能在标准 GPT 的快速响应和推理模型缓慢又深思熟虑的响应之间做出选择。但 GPT-5 消除了这种选择。它的目标是以最合适的程度思考,给出完美的答案。
SWE-Bench 测试中的分数变化,则是 GPT-5 推理能力增强的直观证据。在这项针对真实编程任务解决能力的评测中,具备“思考能力”的 GPT-5 得分相比前一代模型有显著跃升。
但眼尖的读者一定很快发现,上图左侧柱状图中的 52.8 与 69.1,30.8 的绘图比例与实际不符。这也迅速遭到很多网友吐槽称,表格难道是 GPT-5 画的?「甲子光年」注意到,该表格在 OpenAI 公司官网介绍 GPT-5 的发布会后通稿中得到修正。
编程并非唯一的强项。在演示环节,OpenAI 着重强调了 GPT-5 在写作、代码生成和健康建议这三类典型使用场景中的表现。这些领域是 ChatGPT 过去两年最常被用到的部分。
比如写作能力。GPT-5 可以根据模糊提示,生成不同风格的段落,包括不押韵的抑扬格五音步诗歌、结构松散的自由体诗,或者以任意视角重新构造祝酒词。
与 GPT-4o 对比来看,GPT-5 的语言节奏感明显更强,对文学形式的掌握也更加自然。但它也没有改掉旧毛病——破折号的使用依旧略显频繁,这或许也说明:GPT-5 距离真正掌握“语言的分寸感”,还有一步之遥。
另据 OpenAI 介绍,GPT-5 只需简单的一次性提示就能创建美观且响应迅速的网站、应用程序和游戏,并兼具美感,直观而优雅地将创意转化为现实。而且测试人员也注意到它独特的设计取向:GPT-5 对间距、排版和留白等方面都有了更深入的理解。以下为 GPT-5 制作的小游戏,点击球就可以让它弹跳。
除编程以外,GPT-5 在多模态推理和数学推理方面也有进步,MMMU 和 AIME(美国数学邀请赛)测试得分均创历代模型新高。
如果要求该模型解释伯努利效应,GPT-5 的响应速度也非常快。不过,后续要求 GPT-5 创建视觉效果时,OpenAI 解释说,它的响应时间会稍长一些,但很快便提供了远超以往的视觉呈现。
另一个 GPT-5 的演示展示了其代码能力。它在短短几分钟内就编写了超过 200 行代码,在发布会当场创建了一个网站,其中包含许多视觉元素,甚至还有音频元素,可以帮助人们与同伴一起学习法语。
在医疗领域,HealthBench Hard 基准测试显示,GPT-5 在各类医学问答中的正确率远超前几代模型。不仅如此,它的表达也更清晰、条理性更强。
一位真实用户在发布会现场讲述了自己在一周内被诊断出三种癌症后,第一时间将确诊邮件截图上传至 ChatGPT,并从 GPT-5 处获得通俗、温和、带有情感温度的解释。OpenAI 认为,GPT-5 可以为病人们“重新带来一点点自主权”。
幻觉控制,始终是每一代 GPT 绕不开的问题。GPT-5 也在这一方面做出了显著优化,尤其是在健康问答等对“事实准确性”要求极高的领域。根据测试数据,它在具备思考能力的情况下,输出包含事实错误的概率比 GPT-o3 低约 80%,比 GPT-4o 低约 45%。
而且,它在面对“无法回答”或“问题本身存在缺陷”的情况时,更愿意坦率承认自己的局限。比如 CharXiv 测试中,当研究人员移除所有图像后,GPT-5 给出“自信回答”的比例只有 9%,而 GPT-o3 还高达 86.7%。
与此同时,GPT-5 也变得更“听话”了。在测试其指令遵循和多工具协调能力的基准中,GPT-5 能更稳定地执行多步骤请求,在不断变化的环境中自适应反应。它不仅执行得更准,也能在必要时主动调用多个工具,实现更复杂的任务闭环。比如,它能在识别任务无法完成时,坦率说明原因,而不是像以往那样试图“自圆其说”。
效率方面的优化也令人惊喜。OpenAI 的评估显示,GPT-5 在解决研究生级别科学问题、视觉推理或复杂代理任务时,所用 token 数量较以往减少 50% 至 80%,对开发者是直接利好。
另一个微妙的变化,是 GPT-5 在更新后的语音交互演示中表现出了极高的理解精度。在一段展示中,它被要求仅用一个词概括《傲慢与偏见》这本书,它给出的答案是:“Relationships(关系)”。
当然,技术演示之外,安全机制的升级是 GPT-5 最被强调但最容易被忽略的一部分。过去的ChatGPT 主要依赖拒绝式训练,即模型面对敏感请求要学会说“不”。但这种方式在面对模糊或中性请求时容易出现误伤。
GPT-5 采用的是一种新的安全补全(safe completions)机制:在保证不越界的前提下,尽可能回答用户问题。如果必须拒答,也会附带明确解释,并提供可替代的信息路径。
从上面的演示可以看出,GPT-5 的前端 UI 设计也有明显变化——不仅整体响应更快、内容呈现更清晰,现在用户还可以自定义聊天框的颜色。
不过,也有网友调侃说,这场更新仿佛越来越接近“苹果式发布会”:一个渐进的系统升级,一些新添的可视化功能,甚至连颜色都成了亮点。
于是问题来了:
当“更强”不一定意味着“震撼全场”和“一夜刷新”,我们为什么还愿意期待 GPT-5?
革命不再,曲线仍在
GPT-5 带来的整体感受,与两位参与早期测试的工程师此前对路透社的评价如出一辙:确实更强,但并不颠覆。此前很多媒体报道显示,GPT-5 在编码和科学问题解决上的能力令人印象深刻,但从 GPT-4 到 GPT-5 的提升,远不如 2023 年 GPT-3 到 GPT-4 的跨越。
知名人工智能专家盖瑞·马库斯(Gary Marcus)此前撰文称,GPT-5 在细节层面可能优于 GPT-4,但它仍是一个“放大器”——放大语言生成能力,也放大幻觉和语义偏差的风险。它不是一个真正具备“结构性推理能力”的通用智能,这和他三年前对尚未发布的 GPT-4 观感一致。
除了进步缓慢的质疑,另一个令人不安的信号是模型“性能衰减”的趋势。人工智能指标初创公司 Penrose 的研究员 Yunyu Lin 最近发现,包括 OpenAI 的 o3 和 o4 mini 在内的多个大型语言模型会随着时间的推移而退化——即使是在它们所谓的专业领域——基础数学方面。这意味着,模型即便在初期看起来强大,也可能在真实任务中“逐渐退化”。
模型评估与威胁研究组织(METR)主导的研究进一步印证了这种担忧。研究团队让 16 位资深开发者使用 Claude、Cursor Pro 等主流 AI 工具完成 246 个实际开源项目任务。结果显示,尽管 AI 降低了编码阶段的耗时,但因提示构建、建议审查与错误调试而导致的整体耗时反而增加了 19%。AI 节省了输入,却增加了上下文管理的负担。
Mayfield 基金合伙人纳文・查达就表示,人们不满足于“更聪明的聊天机器人”,而是希望 GPT-5 能解锁“自主执行任务”的能力。但从目前公开的信息来看,这一目标或许还需要更多时间。
这些反馈背后,都隐藏着深深的焦虑:GPT 系列,已经走到了“难以再有飞跃”的阶段。
但 OpenAI 显然不认为 GPT-5 是终点。相反,奥尔特曼在今年 6 月发布的博客文章《温和的奇点》中,勾勒了未来的时间轴:2025 年诞生可胜任认知工作的 AI 代理,2026 年具备原创能力的系统上线,2027 年出现可现实执行任务的机器人。到 2030 年,个人的生产力将远超 2020 年。
GPT-5 或许没有让人眼前一亮的突破,但它必须让人相信:进展依然在发生,下一步仍有可能。这就是人们的期待。
从 GPT-3 到 GPT-5,OpenAI 用了五年时间走完了别人十年的路。最新有媒体透露,公司正在以 5000 亿美元估值筹划员工股份的二次出售;而另一边,Claude、Gemini、Grok 等竞争者正在围绕开源、多模态与更强的推理能力展开缠斗,试图抢夺未来 AI 平台的话语权。
或许,奥尔特曼博客中的那句话,更能概括 GPT-5 所处的位置:“技术进步的长弧,向前看是垂直的,向后看是平坦的,但它始终是一条平滑的曲线。”
GPT-5,不是终点,也不是最高光时刻,而是在这条曲线上,一个必须被踩实的节点。
(封面图及文章图片来源:OpenAI)
扫码关注公众号
获取更多技术资讯