满血版o1来了!OpenAI首次将多模态能力与新型推理范式相结合

HelloKitty 2024-12-06 16:26

扫一扫 在手机阅读、分享本文

300

本文由 甲子光年 撰写/授权提供,转载请注明原出处。

文章来源于:甲子光年

作者:苏霍伊

编辑:王博

OpenAI 的每次动作都备受瞩目。

昨日其 CEO 山姆·奥尔特曼(Sam Altman)高调宣布要给大家“整个活”:OpenAI 将开启一个为期 12 天的马拉松式直播活动,内容会包括新品发布和功能更新等,还有一些 “ 圣诞礼物 ”。

1.png

OpenAI的活动预告

于是,全世界的科技媒体都沸腾了,即使有时差也挡不住追“科技春晚”的决心。

北京时间 12 月 6 日凌晨两点,“12 Days of OpenAI, Day 1”的直播开始,当「甲子光年」通宵达旦拆解这份“大礼”,最后却像剥洋葱般发现,奥尔特曼你“没有心”啊!

轰轰烈烈的预告后,第一天的直播只有 14 分钟,更像是过往一场大的发布活动直播中抽出来的一节切片,尽管 OpenAI 发布了更新的模型和产品,也有亮点,但其诚意稍显不足。

业内认为这更像是一场华丽的营销策略,有人调侃:“OpenAI 教你如何霸占 12 天科技新闻头条。”

梳理下来,这次 OpenAI 主要讲了两件事:

1.推出 o1 正式版,这是首次将多模态能力与新型推理范式相结合的版本。相比于 o1 preview,它更加智能,响应速度显著提升。目前 o1 模型已全面上线,API  功能也将在不久后推出。

2.发布了全新专业版套餐——ChatGPT Pro,订阅费用为每月 200 美元,用户可无限访问 OpenAI 的模型,包括语音功能。此外,Pro 套餐还引入了 o1 Pro 模式,在数学、科学和编码等挑战性机器学习基准测试中表现更好。

2.png

o1 正式版引入多模态

o1 模型的正式版将取代之前的 o1-preview 版本。

奥尔特曼介绍,o1 模型在美国数学邀请赛(AIME 2024)中的准确率达到了 83.3%,大幅超越 o1-preview 的 56.7% 和早期的 GPT-4o 模型的 13.4%。

3.png

在编程方面,o1 模型在 CodeForces 竞赛中得分为 89.0%,而 o1-preview 为 62.0%,GPT-4o 仅为 11.0%,可以看出 o1 模型能像熟练程序员一样处理复杂编码任务。

在 GPQA Diamond 博士级科学问题测试中,这些题目基本是“地狱级”难度,o1 甚至超过了人类专家,准确率为 78.3%,而人类专家的得分为 69.7%。但 o1 的表现不如 o1 preview,这可能是模型性能基于问题类型或可能使用的训练数据有所变化导致的。

新模型在处理速度上也有所改进。与之前版本相比,对简单问题的反应时间减少了。奥尔特曼在演示中提到,新版 o1 在处理复杂问题时的错误率降低了 34%,能根据问题的难易程度调整处理时间。

同时,o1 引入了多模态功能,能够处理不同类型的输入和输出。新增了结构化输出和开发者消息功能,增强了模型的交互性和实用性。

在发布会上,o1 模型的负责人现场绘制了一个草图,展示了一个用于收集太阳能供应太空数据中心使用的系统。由于太空无法使用水冷系统,所以散热需要依靠一块巨大的散热片。研究员随后询问 o1 模型,如果需要为这个数据中心提供1吉瓦的电力,需要多大面积的散热片才能保持 GPU 阵列正常工作。

4.png

o1 模型对草图进行了准确的识别和理解,经过详尽的分析和计算,并得出结论:需要 242 万平方米的巨大散热片以满足散热需求。

5.png

每月 200 美元的 ChatGPT Pro

之前传闻中的“收费较贵”版本,今天也来了。

ChatGPT Pro 是一项每月费用为 200 美元的高级订阅计划,可以为用户提供其最先进模型和工具的无限访问权限。特别包括了对 OpenAI o1 及 o1-mini、GPT-4o 和 Advanced Voice 的全面访问,主要针对最为复杂的计算需求。

ChatGPT Pro 的特色之一是引入了 o1 pro 模式,增加了计算资源投入,让模型在解答困难问题时进行更深入的思考和分析。这项服务主要面向需要进行高级数据分析和处理的科研人员、工程师以及其他专业人士,帮助他们提高工作效率并保持在人工智能技术最前沿。

根据外部专家的评测,o1 pro 模式在处理复杂的数据科学、编程和案例分析问题时,能够提供比以往模型更为精确和全面的响应。在进行数学、科学和编程等领域的机器学习基准测试时,o1 pro 模式的表现优于 o1 和 o1-preview 模型。

6.png

为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 使用更严格的评估设置:只有当模型在四次尝试中有四次能够正确回答问题(“4/4 可靠性”),才被认为解决了问题。

7.png

好像大家都要圣诞节之前“赶工”一样,Google Deepmind 也于昨日放大招,发布了最新基础世界模型 Genie 2;Anthrophic 也可能会在圣诞前新发布新模型。

新一轮 AI 模型角斗似乎又要开始了。

接下来还有 11 天的“盲盒”待开,之前已有网友猜测可能会发布的 Sora 模型、Dall-e 4 等,希望 OpenAI 能掏出更多、更硬的货出来。

(封面图和文中配图均来自 OpenAI)

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章