ChatGPT o1满血版上线!实测中它竟然败给了文心Kimi?

HelloKitty 2024-12-09 15:35

扫一扫 在手机阅读、分享本文

272

本文由 智能Pro 撰写/授权提供,转载请注明原出处。

文章来源于:智能Pro

作者:TSknight

当地时间 12 月 5 日,OpenAI 正式上线 ChatGPT‍ 的 o1 和 o1-Pro 两个新的 AI 模型。其中 o1 模型实际上大家之前已经用过了,只是那时候还叫 o1-preview,仅开放了 o1 模型的部分功能,如今新版本去掉了 preview,也意味着 o1 模型的满血版终于正式上线。

1.png

图源:雷科技

从简单的测试来看,满血版的 o1 模型已经支持图片和文件上传,而此前是只能进行文字输入,也就是新增了多模态理解,不过网页搜索功能仍未上线,这点倒是让人感到遗憾。

对于 o1 满血版的提升,OpenAI 的 CEO 奥特曼用一个简单的柱状图给出了对比:可以看到 o1 在数学推理和编程领域的表现要明显优于 o1-preview,提升幅度在 50% 左右,而在科研领域的测试里,o1 相对于 o1-preview 的表现就提升有限了。

2.png

图源:OpenAI

考虑到 o1 模型不需要额外加钱就能使用,对于有需求的用户来说还是很超值的,只是 OpenAI 这次醉翁之意不在酒,相较于免费升级的 o1,全新的 o1-pro 才是重头戏。不过,想要用上 o1-pro,得订阅新的 200 美元套餐才能优先使用,这也是目前 AI 领域中针对个人用户的最昂贵订阅方案。

从OpenAI 给出的性能对比图来看,o1-pro 在 o1 的基础上确实有所精进,但是提升幅度并不大,对于普通用户来说,o1 模型就完全可以满足日常使用了,压根没有必要为了 o1-pro 订阅 200 美元的套餐。

当然,200 美元套餐提供的不只是 o1-pro,还有无限制使用 o1 模型和高级语音功能的权限(o1-pro 不在此列,估计使用次数仍有上限),如果你觉得 o1 的提问额度完全不够用,那么 200 美元的套餐就是个人用户的唯一选择了。

既然有了新的模型,那么肯定是要来测试一下的。雷科技此次测试主要还是针对 o1 满血版的多模态能力,同时也请来了两位国产 AI 友情参赛(kimi 和文心一言)。

o1 满血版实测体验并非「无敌」

o1 模型的强项在于数学等方面的高级推理,那么就先从擅长的地方开始,一道并不算困难的数学计算题:

假设一个公司生产某种商品,生产成本与产量的关系为 C(x) = 3x^2 - 2x + 5(单位:万元),其中 x 是产量(单位:千件)。市场售价与产量的关系为 P(x) = 50 - 0.5x(单位:万元/千件)。 

 1. 求该公司生产 x 千件商品时的总利润函数 L(x)。  

 2. 确定该公司应生产多少千件商品以实现最大利润,并计算最大利润是多少。

首先看看国产 AI 的回答:

3.png

kimi

4.png

文心一言

国产 AI 都给出了相同的答案:188.14 万元,那么再来看看 ChatGPT-o1 的。

5.png

o1

o1 模型给出的答案也是 188.14 万元,与问题本身的标准答案一致,三个 AI 都通过了测试。不过大家从回答的截图里,其实也能看出不同,o1 模型展示了大量的推算过程,更方便用户检查推理的过程是否正确。

这也与 o1 模型的主要用途有关,本质上 o1 模型上为科研等用途设计的,所以在展示答案的时候会更注重于推理过程及正确性,而非只输出正确的答案。

接下来我们试试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:

6.png

还是惯例先看看国产 AI 的回答:

7.png

kimi

8.png

文心一言

两个国产 AI 分别给出了 A 和 B 的选项,其中 kimi 的推理过程非常长,直接把这道小学奥数题以高等数学的方式进行了解析。

下面看看 o1 模型的回答:

9.png

o1

o1 模型给出的答案也是 B,那么是否说明 kimi 算错了?答案并不是,这道题的正确答案其实是 A,换言之 o1 和文心一言都算错了。文心一言因为没有给出详细推理过程,所以无法看出是在哪一步算错了,而 o1 模型显然是在分析图片时,错误的判断了图形的集合数量,最终导致答案推理错误。

在这个问题上,其实就可以看出 AI 大模型在处理类似的图形问题时,解题的思路是不同的,文心一言和 o1 都试图通过直接找出图片的规律来计算答案,也就是类似于人类解题时的思路,而 kimi 则是直接将图形等式转化为方程式,然后进行计算。

从效率来说,o1 和文心一言的推理方式肯定是更节省算力的,但是如果分析拆解能力没有跟上,那么就会像这次一样得出错误的答案,而 kimi 的推理过程虽然会耗费更多的算力,但是也保证了答****度。

站在企业角度来看,为了提高推理效率并降低推理成本,采用图形推理方案自然是最佳选择。但是考虑到 o1 本身的高级模型属性,以及 OpenAI 给出的科研助手定位,如果还为了节省算力而给出错误的答案,恐怕就难以说服用户了。

下面再来看看编程方面的表现,题目并不算难:

我想制作一个软件,这个软件可以每个小时检查一次电脑的网络连接状态,如果网络连接中断就重启电脑,如果网络连接正常就保持现状

两个国产 AI 都很快就给出了答案:

10.png

kimi

11..png

文心一言

因为要求很简单,简单测试后虚拟机都提示成功运行。不过,可以看到两个国产 AI 的回答有些许不同,kimi 在代码中用灰色字体进行了注释,而文心一言则是通过额外的注意事项进行提醒,并且还提醒要安装运行库,并给出了更多的编程建议。

那么 o1 模型呢?答案如下:

12.png

o1

从 o1 模型的回答来看,它是分三个部分完成的回答,首先给出实现思路,然后给出示范代码并进行注释,最后再对代码的编写过程进行分析,同时提供了测试思路和备选方案,算是集中了两个AI各自的优势,对于初学者来说,o1 模型的体验或许会更好一些。

从生产力的角度来说,o1 模型在特定领域的表现确实出色,但是国产 AI 的表现也不算差,其中 kimi 更是让人感到惊喜,是唯一答对全部测试题目的 AI。

测试到这里,本来可以告一段落了,不过我还想看看在日常领域,o1 模型的表现和普通模型又会有什么区别呢?

所以,我又出了一道附加题,从网络上搜索了一个草莓馅饼的照片,然后询问 AI 如何制作照片里的甜点。

13.png

kimi

14.png

文心一言

15.png

o1

三个 AI 都很轻松识别出了甜点的类型,并且给出了相似的配方,不过 o1 模型的回答则是详细到了每一个步骤的操作方式和注意事项,相对来说国产 AI 的步骤说明就简单很多了。如果是有一定烘培经验的人,国产 AI 的菜谱是够用了,但是对于一个新手来说,o1 模型的菜谱成功率显然会高很多。

AI 的下一步是学会真正的「思考」

总体来看,o1 模型在回答的细致度等方面确实有着明显的优势,在一些需要查看推理过程或者得到更详细回答的场景中体验会好很多。但是从答****度来看,o1 对比目前的国产 AI 其实也没有多少优势,表现还不如 kimi。

而且国产 AI 也可以通过追问等方式,得到更详细的回答和推理过程,o1 模型在多数场景下其实都没有明显的优势,比如我在日常使用 ChatGPT 时,很多时候 ChatGPT-4o 就可以满足需求,只有极少数情况下会用到 o1 模型。

作为一个 ChatGPT 的长期用户,我认为 o1 模型其实更适合科研人员及金融分析师等职业,他们在日常工作中会用到大量数学工具并进行多次推理。此时,o1 模型那经过针对性训练的多步骤推理流程,在解决这些问题时表现会比普通AI好不少。

至于 o1-pro,其实从我查询到的其他用户测试结果来看,回答的质量与 o1 模型并没有太大区别,两者的差距主要是 o1-pro 可以调用更多的算力,反复验算答案的正确性,并且尝试给出更详细的推理过程。

实际上 AI 大模型发展到现在的阶段,其实又开始出现细分化的苗头,在此之前不少 AI 企业都希望去打造一个大而全的多模态模型,但是却发现成本很高且效果并不算好,诸如「幻觉」等问题一直难以解决。

而 ChatGPT-o1 无疑给出了另一个解法,在算力足够的情况下,可以让 AI 先对问题进行一次深度的「思考」,再根据思考的结果去进行推算。你可以这么去理解,o1 是先尝试分析问题本身,再根据分析结果去解决问题,而普通 AI 则是直接对问题进行关键词拆解,然后根据算法调用对应的数据并组合输出,这种方式虽然回应速度快,但是回答的准确度却难以保证,特别是面对一些复杂的问题时。

所以,我们可以看到 kimi 和文心一言其实也在通过不同的方式去让 AI 学会「思考」,而不是根据算法和数据强行组合答案。kimi 的表现更是给我留下了深刻的印象,作为数学测试环节唯一回答全对的选手,无需付费就可以使用,性价比和体验都拉满了。

老实说,如果不是为了方便查询外文资料和关注 AI 的最前沿,ChatGPT 的 20 美刀订阅性价比确实不高,免费的 kimi 和提供多种智能体及官方工具,更具有泛用性的文心一言都是更具性价比的选择。

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章