HelloKitty • 2025-03-12 14:12
871
本文由 鲸选AI 撰写/授权提供,转载请注明原出处。
以下文章来源于:鲸选AI
作者:鲸哥
最近鲸哥有个事感受挺深,就是鲸哥有个同学,他以前写代码经常借助 sider,每年一千多元的费用,说是工作中已经离不开了。
Claude3.7 发布后,他惊呼自己工作都要不保了,他所在的外包公司近一年中,也因为 AI 等复杂因素裁员了一些人;
另一件事就是鲸哥前阵子和知名 AI 独立开发者作者陈云飞,一起做客 36 氪直播节目。
他现场演示了用自然语言操作了一个『小红薯博主吐槽器』,生成吐槽 36 氪的内容还挺搞笑的;而他的成名作『小猫补光灯』,发布后曾在 APP Store 付费排行榜第一。
一方面是传统的程序员生态被冲击,一方面是新兴的代码智能生成被瞩目。Anthropic 首席执行官 Dario Amodei 更在近日直言:未来 3 到 6 个月,AI 将编写 90% 的代码,而在 12 个月内,几乎所有的代码都可能由 AI 编写。
之所以敢于如此预言,是随着最近一系列重磅 AI 产品的发布,程序员这个群体的危机感越来越强。AI 进化,导致代码中很多工作都可以被代替了。
尤其编码能力再次打破天花板的 Claude3.7,以及 Windsurf’s Wave 4。此前大火的 OpenAI o3 大模型,以及已经成为独立开发者口中经典的 Cursor,都是标杆型产品,以至于有人惊呼:程序员饭碗要不保了。
重点提及下,最新的 Agentic Coding Evalution 榜单中,Sonnet 3.7 以 67% 的得分率,在初级人员开发评估达成度中位列所有模型第一。第二三名中 GPT-4.5 和 Sonnet 3.5 也相差相差无几,都超过了 60%。显示了这几款模型的编程能力强大。
实际上,两大模型在编程方面略有侧重, GPT-4.5 在涉及架构和跨系统交互的任务上峰值更高,而 Claude 3.7 Sonnet 在原始编码和代码编辑上的峰值更高。
可能单纯说分数,并不好直观理解大模型的能力,换个方式用实际案例来讲述。
此前,o3 模型在 Elo 得分(2727 分)所对应的排名高居 175 名。这是个人类编程测试比赛,类似高考前大家都不知道考试题内容,所以不存在大模型已经刷过题的可能。
这个竞赛一共有全球 168076 名程序员参赛,175名是前0.1%选手(1-175/168076=99.9%),换句话说:o3 已经在编程竞技中击败了世界上 99.9% 的程序员,Claude 3.7 sonnet应该还会更好一点。
不只在模型层 AI Coding 实现了巨大的跨越,在产品开发层面也有了重大的升级。
字节跳动的 Trae 海外版就接入了 Claude-3.7-Sonnet、GPT-4o 等国际大模型,也具备 IDE 的能力。小白也能编程的目的接近实现,程序员的门槛被进一步降低。
最最重要的是,Trae 海外版完全免费,用户可以无成本地使用其所有功能。而 Cursor 需要付费订阅,价格为每月 20 美元。
国外就有网友利用 Trae 和里面内置的 Claude3.7,只需一个设计草图和一个超级简单的提示,它就会自动生成 3D 动画地球的代码。Prompt:
构建一个 3D 地球,让用户可以改变视点、使用卫星图像地图并突出显示南极洲。
这个 3D 地球包含以下功能:使用 Three.js 构建了一个交互式 3D 地球模型。
也有人靠此赚到了真金白银的收益。海外一位叫 Pieter Levels 的大神只用了 3 个小时,完全依靠 AI 开发了一款游戏。上线 13 天已经赚了 67,000 美元,折合人民币接近 50 万元,马斯克都为此点赞!
是不是有这么神奇,鲸哥自己也做了个 Case 。鉴于我是完全的小白,我打算做一个不是特别难,但是苹果和国内软件企业都没做好的产品—“To do 日历”(个人认为我做的最好,可能是我用的日历产品比较少)。
Trae编写程序页面
我们使用字节刚刚推出的 AI Coding 产品 Trae,具体是用 Trae 的 Builder 模式,这个模式支持一键从 0 到 1 生成应用;Chat 模式适合不断修改的模式。我们输入了如下 Prompt:
生成一个 To do list 小程序,要求结合日历。左侧是日历,日历上每天可以添加简单事项,右侧是这天的详细 To do list。每件事后面可以打对勾或者叉,表示每件事已经完成或者未完成,未完成事项自动进下一天 list,并且可以编辑。
几分钟就生成了应用代码,而在预览的过程中,Trae 最牛的地方还是帮你缺啥补啥,开发环境一步步帮你部署到电脑上,运行监测一步步落实。
最终呈现的效果大家可以看看,我个人想要的几个逻辑都复现了。
鲸哥用自然语言编写出的程序
第一是右侧 list 完成的打对勾,事项就会被画横线,显示已经完成;未完成的事项打叉,会自动加入到第二天的 To do list。
第二是每件事可以任务分类,写的时候选择是工作还是生活学习类的标签;然后单独点击工作等某个标签,会显示这个月内要做的工作list。
第三是长短期任务结合,都可以添加和显示,尤其长期任务是每天显示进度,起到很好的督促作用。
而实现以上完整逻辑,鲸哥也是和 Trae 连续对话一下午,期间 Trae 调用 Claude 3.7 模型,动不动就要排队 200 多名,以及复杂任务还经常报错,鲸哥最开始想做AI版陌陌,太复杂最终没能完成。
尽管仍有很多不完美的地方,但是只花了一下午就做出了成品,无论效率还是效果还是挺惊人的。当然这款程序可能无法推向市场,因为代码水平达不到商用的水平。
但我们要知道,大模型代码的水平正快速提高, 从几方面正在接近人类:
Sonnet 3.5 可以输出 200 行,而 Sonnet 3.7 已经可以输出 1000-1500 行代码,是第一个可靠代码长度上千行的模型。
以后大量繁杂枯燥的编程就不需要一行行打了,大量初级程序员的位置被取代。刷 Leetcode 也不再有意义,如鲸哥的同学一样,都买个大模型会员,大家编程实力就会变高。
还有 Action scaling 的关键能力,能够连续做 function call 和 tool use ,并持续根据环境的反馈迭代,直到把一个开放式问题解决,这在未来的进化能力不可小觑。
当然有朋友说,AI 能和客户对需求吗?AI 会和 PM 吵架吗?AI 能背锅吗?
不可否认的是,现在还不行,但 Devin 等产品正在呈现一定的 AI Agent 能力,理解并执行的能力快速提高,人人都是产品经理的时代就会到来。
扫码关注公众号
获取更多技术资讯