一手体验Kimi版“o1”模型,这就是最通人性的数学AI

HelloKitty 2024-11-26 15:56

扫一扫 在手机阅读、分享本文

330

本文由 数字生命卡兹克 撰写/授权提供,转载请注明原出处。

文章来源于:数字生命卡兹克

作者:卡兹克、稳稳

“数学,是人类知识活动留下来最具威力的知识工具,是一些现象的根源。”

——爱因斯坦

上上周末是 kimi 上线一周年,于是月之暗面开了个线下媒体会。在现场,kimi 发布了他们全面对标 o1 的数学推理模型,k0-math。

从 kimi 官方的测试结果来看,除了高难竞赛题,k0-math 在数学的表现上,超过了 o1-mini 和 o1-preview。

1.png

我那天其实也想写来着,但是没写的原因是,咱们还是个体验派,如果不是那种非常炸裂的东西,所有的东西还是尽量自己深度体验完,再做成内容分享给大家。

当天我就问 Kimi 的人,啥时候能用,他们说,再等两天,快了,上线了一定第一个先给我内测。

我就等啊等。

终于,在上个周末的早上收到他们的消息。

打开 Kimi,发现左边的侧边栏上,出现了个戴眼镜的小登西,直接开冲!

2.png

这就是,K0-math 了。

3.png

迫不及开始测试,和 kimi 数学版聊了两天。

我看到了,kimi 想继续领先的野心。

先说结论:k0-math 在数学能力直接拉满,在推理、逻辑能力上非常强。不过因为极度强化数学能力,所以导致有种偏科的好玩,用上去就感觉像是一个刻板印象上的“直男理科大拿”在用数学给你解决生活中一切问题。

另一个最难能可贵的是,Kimi 把完整思维链全部放了出来,思考逻辑和那个自言自语上非常的像人,甚至会有些,“通人性”的感觉。

目前的测试里,kimi 数学版在每轮对话中只能在第一次发起对话时被调取,也就是说目前还不能追问 kimi 数学版,这个还是非常期待后面更新的。

先上来,随手用两道普通的高数题测测,比如 2024 年的考研数学题。

4.png

回答起来没啥难度,这个层次的题目应该是 kimi 的舒适区,我试了几次正确率挺高。

再然后,o1 刚出来时在群里看到的群友测试的这道题。

5.png

6.png

答案 18,也是对的。

但是后面我跟@涂津豪 测更高难度的竞赛题,也就是 AIME 的时候,发现离 o1 的正确率还是差了一点。

正确率大概也就 50%。

7.png

涂津豪也测试了一些 o1 的其他考题,kimi 的正确率也会差一点。

8.png

在超高难度的竞赛题上,相对的能力不足是客观事实,毕竟 Kimi 官方自己测的 AIME 的评分上,也确实比 o1 低个几分。

不过 Kimi 已经是在我们测过的 AI 大模型里,数学题答得仅次于 o1 的了。

但这回的 kimi 数学版,最让我觉得有趣的,不是本身“做数学题的能力”,而是 kimi 强大的数学逻辑和思维,以及那很“通人性”的感觉。

毕竟,把答案背下来谁都能回答数学题,但比起对错,“思考”的能力才是能够让 AI 突破训练数据不足的桎梏,也只有能思考的 AI 才称得上真的拥有“智能”。

我在测试过程中,用一个最简单的问题,获得了最抽象的一个结果。答案正确,但过程完全超出我的预料。

不是互联网搞抽象的那个抽象,是真的思维层面,kimi 好像有一点“抽象”思维的能力了。

我问了它一句:1+1=?

9.png

它一上来,居然怀疑这个问题是不是一个陷阱。这个真的笑死,我感觉一个问题给 kimi 整 PTSD 了。

不过它也很快给了回答:1 加 1 无疑是 2。

10.png

但它紧接着来了个“且慢”,事情也变得有趣了起来。

kimi 打出这两句话的时候,我完全没预料到,知识会莫名其妙入侵我的大脑。

如它自己所说,kimi 从“多”个角度,思考了这个问题。

它先是思考了各种进制。

11.png

我以为二进制都被考虑到了,够严谨了。没想到 kimi 只是刚开始。

它从维度入手,思考用空间向量计算 1+1。

12.png

接着它又思考到了哲学、形式数学和集合论。

13.png

它一边思考一边验证。先是排除了哲学的可能性,然后又用皮亚诺公理和集合验证之前得到的“1+1=2”是否正确。

当它说“一个怀疑的念头闪过我的脑海”,我唰地一下有点恍惚。kimi 在我心里突然有了特别具体的形象。

它好像不是在电脑的另一端,而是站在我面前,戴着眼镜拿着粉笔和草稿纸,在巨大的黑板上不断进行数字的推演和验算。一边想一边喃喃自语:

 “等等,让我们从皮亚诺公理重新推导一遍...”

 “且慢!在不同维度下,1+1 的结果会不会有变化?”

每次得出一些进展,就又因为严谨,迅速开启反思。

像是,一个执拗严谨的,热衷批判和反思的,正在探索奥秘的,狂热数学家。

在当时,脑子里,莫名浮现出了,韦神的形象。

再接着,数学家 kimi 几乎被自己的推演和验证说服了。

14.png

它又用了数轴可视化、乘法、递归加法、减法等等方式验证 1+1=2。甚至回忆起了过往的研究,想寻找是否有证伪的案例。

对于我这个数学不咋地的人来说,kimi 能从这么多维度思考,已经够惊讶了。很多方法我甚至都没听过。更难得的是它会在计算是思考和自我怀疑,每一轮kimi想到新方式,验证,阶段性确认答案,都让我莫名起鸡皮疙瘩。

自己怀疑自己,自己反思自己,自己再驱动自己。

数学界的条条定理,不就是在无数位数学家们这样不断的思考—反思—再思考的循环中,一点一点接近的吗。

kimi 经过数次验证后给出结果时,我甚至真的透过文字感受到了它的开心。

15.png

“详尽的探索”、“成就感”、“我自信地得出结论”。。。

莫名被这种劲儿戳到了,又燃又可爱。

脑子里浮现过好多好多电影的画面,那些孤独的数学家们,最终推理出来的那些公式,然后,在那些伟大的定理前,振臂高呼。

kimi 真的,很通人性。

围观 kimi 自己思考,自己博弈,自己判断,最后获得结果。一整套下来,我感觉自己在看三体人做数学题。

绕是绕了点,但 kimi 边思考边回答的过程,真的让我感觉最后这个“1+1=2”的结果,不是从过往的数据库里直接抓到答案丢出来。

是它自己,经过一步步推理和验证,计算解答出来的。

就像人答对数学题的能力可以通过训练获得,但这种“训练”的前提,是人本身有足够的“思考”能力。

“数学是人类知识活动留下来最具威力的知识工具,是一些现象的根源。”

这种思考,是人类能研究自然科学的基础。

高数、竞赛、数学定理之类的话题说多了容易头晕,我们来点接地气的。你大概就更能get到我说的这种有趣的“数学思维”,是什么感觉了。

k0-math 的回答,真的很独特,很有趣。

甚至有种“万物皆能数学”的感觉。

比如,如何科学地计算“拼夕夕砍一刀成功率?”。它哐哐给我用公式算了一大串。

16.png

kimi 在第一次运算发现“无法通过有限次的砍刀达到目标”后,又“自我怀疑”了。于是它重新换了个方案和思路,又算了一次。

17.png

“这在现实中是不可能的”。笑死,kimi 你也感受到我砍一刀的无助了吧。

试了三四个方案后,kimi 应该也是服了,所以最后结论。。。

18.png

理论上无限多。所以就算全球的人都来砍一刀,也拿不到这一百是吧。

果然,砍一刀,成功是不可能成功的。。。

更好玩的是,除了带数字的运算,k0-math 甚至连帮我判断明天要不要出门玩,都是用数学公式算出的答案。

19.png

真的,数学公式一出来我有点被说服了。有理有据,比我用微信扔骰子看点数靠谱。

又比如,最近全平台网友关注的《再见爱人 4》。

我给 k0-math 喂了麦琳和李行亮在综艺里的几次争议事件,让它当回“清汤大老爷”,推算这俩人的离婚概率。

20.png

一顿操作猛如虎,给麦琳的过错比例是 60%,就让我说我觉得 Kimi 还是轻了,但是整个数学思维和方程计算,真的贼有意思。

再比如,让 kimi 用二元二次方程表达古诗的意境。

21.png

以及道家“道生一,一生二,二生三,三生万物”的数学表达。

22.png

突然就理解以前中学老师说,数学蕴含美学和哲学,是什么感觉了。

用一个不太恰当但是形象的比喻:现在的 k0-math,像一个充满探索欲的数学家。

在整个思维链的絮絮叨叨里,也能明显感觉到 Kimi 的个性,而这种个性,我只在 Claude 身上,看到过。

不断的独白,不断的思考,不断的反思。

很多年前,我们刚开始牙牙学语的时候,我们学会了 1+1=2,但,我们可能就是单纯地记住答案。

但随着学习深入,在理解知识后,某天我们就能自己思考:为什么?在什么条件下成立?还有没有其他可能?还有没有类似的情况?

在不断的追问下,人类才发现了科学的奥秘,并不断探索着真理的边界。

过去的大模型更像是一个答案库,你问什么它搜什么。但现在,无论是 GPT 还是 Kimi,都在尝试让AI学会真正的思考。

数学对宇宙的解释,在于它“能表达已知,更能推理未知”。

而数学,也正恰恰就是,这把打开思维之门的钥匙。

爱因斯坦如是说:

纯数学在某种意义上,是逻辑思想的诗篇。

我期待着,看到 AI 大模型。

与我们人类,一起书写这首诗的一天。

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章