你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

OpenAI和Google同日地震级更新：人间一夜，AGI 临近！

HelloKitty • 2025-03-27 14:29

扫一扫在手机阅读、分享本文

3575

本文由鲸选AI 撰写/授权提供，转载请注明原出处。

以下文章来源于：鲸选AI

2024 年，Google 想夺回 AI 场子，但总是被 OpenAI 搅局。

每次一宣布某日要开发布会，OpenAI 就会提前发布实力更强的产品。导致每次 Google 的 AI 产品发布会都特别尴尬。

2025 年的 Google 学聪明了，发布 AI 产品不再大张旗鼓，而是偷偷滴直接上线。这次今晚又没任何预热，Google 直接上线了 Gemini 2.5 Pro 模型。

这是一款会推理的混合大模型，实力超越 GPT4.5 和 Grok3 ，最大特点是能够模仿人类快慢思考，这不是堪比 GPT-5 前奏吗？而它就这么不声不响上线了。

null

就在大家以为盛誉会属于 Google 时，OpenAI 又在推特上宣布：

太平洋时间上午 11 点直播。最终 OpenAI 发布了 GPT-4o image generation，图像生成技术模型。

具有媲美人类摄影的出图质量，随心所欲的构图以及细节处理，超乎寻常的图文理解，以及任意的图中文字和 LOGO 生成的特性，也是在 X 上引起一片欢呼。

深夜 2 点多，鲸哥还没睡觉，看到朋友圈很多人发北***了。于是我写下如此朋友圈：

并没有感受到北***，但此刻，正在被 Google 和 OpenAI 天雷勾地火的竞争震撼。熟睡中的普罗大众，并不知道在这一夜中，在通往 AGI 之路上，人类又跃进了一大步！

无心睡眠，向 AGI 前进一大步

Gemini 2.5 炸裂出场，

首个类人大模型

Gemini 2.5 Pro 实验版这次很炸裂，Gemini 2.5 号称可以处理更复杂的编程、科学和数学问题，并支持更具有情境感知能力的智能体。

这个新的“思考模型”在 LMArena 上以显著优势领先，并在数学、科学和编码基准测试中击败了 DeepSeek-R1、Grok 3 和 Claude 3.7。也几乎全面优于 OPenAI 家的两款模型—o3-mini 和 GPT4.5。

null

Gemini 2.5 Pro 现在在竞技排行榜上位居第一——这是有史以来最大的分数跳跃（比 Grok-3/GPT-4.5 高出 40 分）。

配备100 万 token 的上下文（即将推出 200 万），能够处理多模态数据，并且经过 vibe coding 认证，可以仅通过一个提示构建整个游戏。这是 Gemini 2.5 的神奇之处。

null

更重要的是，当你向 Gemini 2.5 提问时，它会在回答之前通过思考进行推理，模仿人类处理思想的方式—逐步接近问题，细化潜在解决方案，并选择最佳方案。

鲸哥测试生成“近 3 年国内直播带货 KOL 的动态演示页面”，2.5 Pro 飞速生成了相关代码。

这里就需要提到 Google AI 的亮眼好处，就是他可以调用之前的 Flash 2.0 就已经融合的 Google 系工具，比如分析 YouTube 视频、输出内容到 Docs。这波代码演示，生成后也直接调用 Colab 演示。

以下是 2.5 Pro 生成的主播热度动态演示效果，侧重是代码到生成的过程，至于内容准确性并没有体现，但整体还可以参考。毕竟 2023 年的小杨哥还没出事，还是直播带货领域的绝对一哥。

同时，我们测试了 2.5 Pro 的深度推理能力，要求其生成一份具身智能报告。这份报告不是那种很虚、不能用的内容，而是具有一定的可读性。

OpenAI 杀死摄影师

在 OpenAI 展示的官方案例 AI 生图中，第一个图就足够震撼。

null

如果不明说，恐怕任何人都猜不到，这张图是 AI 生成的。毕竟反射画面和密密麻麻们的文字，都在说 AI 不可能这么神奇！

但实际上，这就是 4o 生成的 AI 图片，OpenAI 放出它的提示词如下。

这是用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿一件印有大型 OpenAI 标志的 T 恤。笔迹看起来很自然，但有点凌乱，我们可以看到摄影师的倒影。

更神奇的是第二张图片转了人物朝向，生成的图像还是毫无破绽，也放出来震撼下大家。

null

如果你没有 GPT Plus，那么用 GPT 免费的图片生成功能，其实已经能秒杀大部分文生图产品了。这是鲸哥直接用上面同款提示词生成的图片。

同时，鲸哥也用 Google 2.0 Flash 模型，同款提示词生成了同样的图。可以看到 Google 不太有审美，手部细节也崩了。

但 OpenAI 是不是为了官网案例特调，还需要以后全量上线模型，大家长期测试。

另外，4o 的图像生成指令也足够强大，很多系统在处理约 5-8 个对象时会遇到困难，而 GPT‑4o 可以处理多达 10-20 个不同的对象。下图就是 4o 在同一张图上，生成了16个物体，每个都准确生成了用户表达的内容，Amazing！

null

当然，对于类似 Google 2.0 Flash 的图片编辑能力，4o 也是不在话下。可谓精准狙击了 Google 刚火出圈的图片编辑能力。

null

我们即将接近 AGI 了吗？

OpenAI 同时宣布，从今天起，ChatGPT 和 Sora 的所有 Plus、Pro、Team 和 Free 用户都可以开始使用 4o 图像功能。

山姆奥特曼则表示，“ChatGPT 中图像的新版本仍在推出中，所以如果今天没有获得很好的图像，请稍后再试 ”。应该预示着将继续整合多模态模型，以及产品端的融合。

有网友评论，4o 图像功能超越了数百家 AI 图像公司。委实，甚至一些摄像和设计师等影像工作的饭碗，也将不保。

null

而对于 Google 来说，Gemini 席卷的各种基准测试，在证明他的强大。实际体验中，应该快速回答的问题很快回答，需要深度推理的问题也非常快速执行，一份报告、一份游戏生成基本都在 60 秒以内。

鲸哥惊艳于它的速度，更惊讶这种融合模型带来的体验。不会再出现问个简单问题，AI 也去深度推理了。当然，2.5 还不能生成图片，也许下一步 3.0，就会带来这一能力。

Google 这波拉响了硅谷的 AI 军备竞赛，此前 Anthropic CEO 称，还有更强的大模型没有放出，预计也会近期推出，防止 Claude 3.7 无法维持领先。而 OpenAI 在 GPT 4.5 发布会中，山姆奥特曼都没有出现，也许意味着新的模型也会近期发布。

在这场 OpenAI 和 Google 对决的主角戏中，没想到最着急的是埃隆马斯克，他在 X 上发了多条内容，表明 Grok 是更好的那一个模型。

null

马斯克发布这张图时说道：这是很重要的区别，嘲讽其他家模型撒谎和追求政治正确，而 Grok 则追求真理。

马斯克的出现，为今晚这场竞争增添了趣味因素。

就在 DeepSeek V3 刚刚拿回的头牌中，Google 和 OpenAI 展示了强大的竞争实力，而大家在你追我赶中，进一步拉近了 AGI 的梦想。

也许就在不远的某个夜晚中，AGI 就会突然降临！

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：Manus欲以37亿估值硅谷寻融资！发布仅三周，线...

下一篇：美团新故事，出海和AI两手抓

精选活动更多 >

{{ val.activity_name }}

{{ val.province ? (val.province + ' ' + val.city) : val.location }}

热门文章

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

2026-06-10

vivo、荣耀接连入场，戳破了具身智能的AI叙事

vivo、荣耀接连入场，戳破了具身智能的AI叙事

2026-06-10

苹果把Siri交给了Gemini

苹果把Siri交给了Gemini

2026-06-10

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

2026-06-12

微信“抢婚”豆包？

微信“抢婚”豆包？

2026-06-11

普通人怎么读懂Token经济学？

普通人怎么读懂Token经济学？

2026-06-11

Kimi年内第3轮融资来了，估值300亿美元

Kimi年内第3轮融资来了，估值300亿美元

2026-06-11

一场「贩卖焦虑」的生意，正在被AI重新定价

一场「贩卖焦虑」的生意，正在被AI重新定价

2026-06-12