OpenAI员工在推特上,像极了上班的你

HelloKitty 2025-01-03 16:36

扫一扫 在手机阅读、分享本文

1238

本文由 硅星人Pro 撰写/授权提供,转载请注明原出处。

文章来源于:硅星人Pro 

作者:Jessica

OpenAI 发布旗舰推理模型 o3 和 o3-mini,成为他们 2024 年的收官之作,制造了一波小热潮。和往常一样,Twitter (x.com)依然是外网讨论的主阵地。

但有件事不知你发现没,这次来自 OpenAI“自己人”的声量明显增强了——几乎所有拥有 x 账号的 OpenAI 员工都在发文,为公司的重大模型更新站台助威。

网友们越刷推越发现,放眼望去,怎么满世界都是 OpenAI 的工程师和研究员。而且这次不再局限于那几个耳熟能详的名字,整个团队都出来了。

此情此景,是不是还挺熟悉~Twitter 上的 OpenAI 员工们,像不像在朋友圈奋力为东家“营业”的你?

OpenAI 全员共创 o3 盛事之:

领导班子带头 PR

掌门人奥特曼不用多说了:从发布前按捺不住以“oh oh oh”暗示新品,邀请大家申请 o3 测试权限;

1.png

到强调 o3-mini 编程表现以显著降低的成本超越 o1,在线感激团队成员的辛劳付出,称大家一起工作是“人生中最大的快乐之一”;

2.png

再到各种一键三连同事们的 o3 推文,热闹非常。

3.png

上个月刚结束"人生中最长假期"的 OpenAI 联合创始人兼总裁 Greg Brockman,回归后一直在紧密配合公司的每一步动作,勤劳搞宣发。

o3 上线后他发声力赞:新模型在最具挑战性的测试中实现了质的飞跃,直接达到一个全新的高度。

4.png

首席产品官 Kevin Weil 和研究副总裁 Mark Chen 分别转发 ARC-AGI 测试突破和 o3-mini 团队的推文。

5.png

新任 OpenAI 首席信息安全官 Dane Stuckey 也来“一二三,上链接”了,感叹这是“多么令人兴奋的一天”。

有意思的是,Stuckey 大约四年前就注册了推特账号,而直到今年 10 月他离开 Palantir Tech,官宣加入 OpenAI 后,才开始正式发文。并且一改往日低调,变得异常活跃。

6.png

主创团队携手登场

在这次发布直播中,年轻的华人研究员 Hongyu Ren 作为团队代表,详细介绍了轻量级模型 o3 mini。

他随后在推特上发文,重点讲解 o3 mini 的卓越性能,包括其高效性、成本效益以及灵活可调的推理时间。还特别提到了几位参与 o3-mini 研发的核心成员,向他们致敬。

7.png

几位主创也纷纷发文回应,称 o3-mini 是“一个聪明的小怪兽”、“速度极快”、拥有“惊人的数学和代码性能”,言语间自豪之情尽显。

8.png

其实,这些研究员们在业内已经颇有建树。查看他们的背景就会发现,不少人都是 o1 和 o1-mini 的关键贡献者。不过这一波官宣也确实让更多公众认识了他们,以OpenAI的造星能力来看,出几个新的大模型界 KOL 或许指日可待。

各组同事扎堆夸夸

此次“OpenAI 夸夸团”的团友之多:只要点进一位员工的 x 账号,就大概率能顺着各种"套娃式"转发,连环点进其他几位同事夸赞 o3 的推文里。

搞得我们都怀疑奥特曼是不是下达了什么指标,把增加 o3 曝光度也算进员工 KPI 里。

在微软研究院工作了十年、曾担任 AI 副总裁及杰出科学家的知名计算机大佬 Sébastien Bubeck,于今年 10 月入职了 OpenAI。他在置顶推文中坦言,o3 和 o3-mini 是自己截至目前最喜欢的模型,o3 各项评估简直封神,特别是前沿数学 25% 的测试成绩。

9.png

领导过 GPT-4o 预训练和 o1 开发的研究员 Aidan Clark 更是连发五条,激赞“Hongyu 真得太厉害了”,表示 o3-mini 是第一个让他真正能提出难题的模型。

10.png

专注 GPT 增长的技术团队成员 Anshita Saini 说,o3 给人的感觉很不一样。整个 o3 系列的理念会让她停下来思考“一个将 AGI 产品化的世界是什么样子”。

11.png

研究人员在线剖析

除了以上这种直给式力挺,还有一些 OpenAI 研究员承担了答疑解惑的角色,试图通过分享观点来澄清一些问题。

o3 和 o3-mini 的发布给社区带来振奋的同时,也引发了一些争议和质疑。有人因为 ARC-AGI 的测试结果欢呼 AGI 近在咫尺,甚至已经实现;也有人嗤之以鼻,对 o3 高昂的算力需求和运营成本表示担忧,吐槽这不过是又一个"画饼"产品。

对此,OpenAI 多模态推理研究员 Noam Brown 发文表示:外界对 ARC-AGI 测试的反应有些过度,突破 ARC-AGI 基准并不意味着模型已达到 AGI 水平。他还提到了 AI 领域的一个普遍现象:人们往往认为某个基准测试需要"超智能"才能完成,但当真的有模型攻克这个基准时,人们又会因为它没有达到预期中的"超智能"水平而感到失望。

言外之意:请理性对待,不要捧杀。

12.png

OpenAI API 工程主管 Sherwin Wu 对此深表赞同,Sherwin 提醒社区:比起 ARC-AGI 测试,o3 在编程和数学上的突破才更值得关注——o3 的编程水平已经超越了自己,而 o3 能答对四分之一的前沿数学题目自己更是一道都解不出。

13.png

另外,针对 o3 模型是否使用特定数据集、通过特定领域优化、或人为调整提示格式来提高评估结果的质疑,公司研究员 Brandon McKinzie 和 Rhythm Garg 相继回应:

评估中使用的 arc-agi 公共训练集仅是更大 o3 训练数据的一小部分,无法决定模型表现;o3 是通用模型,未进行任何特定领域的微调;ARC-AGI 高分并非依赖调整提示,而是模型通用性和训练结果的自然体现。

14.png

关于 o3 的高昂价格,研究员 Nat McAleese 这样解释:虽然 o3 是目前测试阶段成本最高的模型,但它开启了一个"用计算换性能"的新时代。通过增加测试阶段的计算量,o3 将模型性能提升到了一个"令人难以置信的水平"。

Nat 认为,尽管目前确实很贵,但随着技术进步,token 价格会逐渐降低。更关键的是,团队已经找到了一种能够高效地将计算量转化为性能提升的方法,这预示着未来 AI 模型的能力还将大幅提升。

15.png

最后是 OpenAI 模型训练速度的问题。在中文社区颇有影响力的 Jason Wei 表示:从 o1 到 o3 的升级仅用了三个月时间,证明了基于思维链的强化学习新范式,比传统预训练方式每 1-2 年才能推出一个新模型的节奏要快得多。

16.png

连 OpenAI 日本办公室总裁 Tadao Nagasaki 也出来捧场:“我们不是才在九月份发布了 o1?现在已经开始对 o3 早期评估了!”

17.png

集体营业要传达什么信息

这次 OpenAI 员工集体为 o3 发布背书,首先是出于对产品的高度自信。通过不同角度的解读,他们希望外界能够更全面地了解 o3 在数学、编程和推理方面的突破性成就。OpenAI 有意向外界展示:自己依然是 AI 技术的领导者,在竞争者四起的市场上存在感依旧。

此外,在当前 OpenAI 面临外界质疑、竞争压力加剧的关键时间点,加之核心员工频繁流失以及“吹哨人”风波的影响,全员营业也带有了些许“抱团取暖”的意味。他们试图借这次发布向社区传递几个信号:

1. 扩展法则有新突破

多位 OpenAI 研究员指出,o3 和 o3-mini 验证了增加计算资源、数据量和模型参数确实能带来显著性能提升,并且突破了传统扩展法则“递减效益”的限制,证明模型在未来仍有巨大的提升空间。

2. 技术创新没有“撞墙”

员工们通过转发测试数据和详细解读,强调 o3 系列的理念和性能突破了许多人对 AI 模型边界的想象,不仅在性能上取得了超越预期的突破,也展现了更广泛的适用性。相比外界对 GPT-5“难产”的传言,OpenAI 想证明他们正在开辟另一条创新之路。

3. 训练速度并未放缓

面对外界关于 OpenAI 模型迭代速度的质疑,特别是在全球 AI 竞争日益激烈的背景下,从 o1 到 o3 的迅速升级成了明确回应。表明 OpenAI 有能力突破传统预训练 1-2 年的开发周期,以更快的速度推出高质量模型,稳固市场信心。

回过头看,从上线 o1 正式版到官宣o3,这12天技术直播更像一场声势浩大的 OpenAI 大秀。去年这个时候,那场震撼全网的"OpenAI is nothing without its people"全员声援才刚刚落幕。一年过去,OpenAI 不能说不好,却也不复曾经 GPT 时的巅峰辉煌。在经历了各种高低曲折后,或许每位员工都想在年底拼一把来 make OpenAI great again。

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章