AI不应该把所有桌子都掀了

HelloKitty 2024-07-10 16:24

扫一扫 在手机阅读、分享本文

1020

本文由 硅星人Pro 撰写/授权提供,转载请注明原出处。

文章来源于:硅星人Pro

作者:玄宁

大厂的 AI 正踏入另一条河流

今天关于大模型的狂热里充满了各种误解。

其中最深入人心的一个,就是“AGI” (Artificial General Intelligence,通用人工智能)马上就要实现,而实现的方式是由一个全知全能的模型,解决你自己现在都不知道还需要去解决的某个无比重要的任务。实现的载体就是一个比人还聪明的对话框。

因此,一切都需要被立刻颠覆、马上重来。

这可以是个令人期待的未来,但并不是马上就要发生的事情。最近的一系列事情都在让人们回过神来。比如作为标杆的 GPT-5 一再延迟,如扎克伯格首次明确了对 ChatGPT 类单一全能 AI 产品的拒绝;比如一份被称为“AI 墓地”的名单在网上热传,收录了 738 个已死去或停止运行的 AI 项目。

与此同时,几个重要的 AI 产品,都在体现另一种浪潮的方向:不是推倒重建,而是在已有大量用户的系统里纳入大模型能力,借此大幅提升用户体验;不是无中生有,而是用大模型把已积累的资源真正调用起来,更好服务用户原本就存在的需求。

上个月的苹果 WWDC 发布会在第一时间被认为令人失望,很大程度就是因为外界对苹果发布一个全知全能模型的预期太高了,但接下来股价高涨等市场的反馈扭转了人们的判断,也体现了人们对苹果所代表的这条 AI 路线的重新思考。

1.png

苹果没有自己的全能模型,而是建设了一个三层的模型体系:本地模型用于处理简单任务,私有云端模型来确保加密和安全,第三方的模型提供更多的能力。这个体系是为了它复杂的生态系统而建,为了增强它自己已有的能力而设,目的是提高用户在已有需求上的体验。

这也是为什么后来大家明白,OpenAI 在里面并不是一个吃掉苹果的角色,哪怕 ChatGPT 是目前最强的大模型产品,也无法“接住”苹果的用户需求,依然只有苹果能服务他们。

再往前 Google 在年度大会 Google I/O 上的思路同样如此,抛去在 OpenAI 压力下应对性的“期货”产品 Astra,它更多的发布都是在把 Gemini 融入它已有的亿万级用户产品线中,而非对一个单独的全新 Gemini app 本身的更新。

在最近一些国内国民级产品的更新上,也有相似趋势。在刚结束的世界人工智能大会(WAIC),支付宝重点展示了最新的 AI 应用——集成在支付宝 App 里的智能助理,你可以在支付宝首页下拉找到它,过往多次点击才能完成的如订票、点餐、问诊挂号等服务,用说话的方式就能更简单地办好。

与那些充满科幻片色彩、但迟迟无法体验的场景不同,苹果在发布会上举的例子是,“假设我的一个会议被重新安排到下午晚些时候,我想知道这是否会影响到我按时参加我女儿的演出”,在 Siri 后续更新后这些功能就可以实现。

相似的,支付宝同样关心 AI 能帮人解决生活问题,在智能助理展示的已实现的功能中,就包括“帮我点一杯星巴克的大杯冰美式”、“帮我交 200 块钱话费”、“上个月我花了多少钱”、“帮我查明晚七点后从上海飞北京的航班”等服务。

2.png

今年 4 月开始,支付宝就在首页测试这个全新的智能助理,它不是侧重聊天交流的“AI 原生应用”,更像是融入支付宝平台生态的 AI 生活管家,不只是“有脑有嘴能对话”,同样“有手有脚能办事”。

“生活搭子”之外,也有“工作搭子”—— 今年 1 月,钉钉上线的“AI 超级助理”,就成了可调用钉钉几乎所有功能的入口。更早之前,微软同样将 Copilot(AI 助手)嵌入 Word、Excel 等旗下所有的办公应用中。

这些都是典型平台或 App 的自我改造。他们没有抛下原有亿万用户的日常需求,它们不因 AI 大模型出现而改变,但新技术会使需求的满足变得大不一样。

这种对产品的自我重塑,从用户需求出发,看起来不那么“炫技”,甚至是个下“笨功夫”的活儿,需要既有生态保障,甚至是系统性二次开发。

比如苹果智能需要基于大模型,在安全的环境里对用户的个人信息进行处理,从而进一步“判断用户的日程是否冲突”。支付宝智能助理要完成订票这样的任务,背后是系统性的生态和技术支撑形成闭环,需要在隐私保护基础上对用户个人信息进行个性化的处理。

这些公司往往也都是在隐私和数据保护上最在意的公司,因此你会看到相关功能发布时,都带着“枯燥”的对数据隐私的配套技术保障的介绍,它们当然没有一个斯嘉丽约翰逊口音的 AI 化身吸引眼球,但对在日常生活里依赖这些服务的人们是至关重要的。

AI 要融入用户的生活场景,提供更有人情味的服务。至于大模型本身,则无需喧宾夺主,非要出来把一切桌子都掀了,它完全可以躲在最后面。

“让 AI 像扫码支付一样简单”是一个很形象的说法。一个二维码简化了许多繁琐的流程,同样让诸多技术上的复杂革新隐藏在了后面。支付宝提出的这句话,说清了许多国民级应用使用大模型的新方向,也是通往“AGI”的另一条路——不止是 All in AI,更应该 AI in All。

大模型落地的三股浪潮

诸多国民级产品的“不谋而合”背后,是把大模型放在更长的技术发展视野里来看待的产物。

从技术的演进来看,大模型的突破,可以被认为是机器智能漫长发展历程里的一个全新阶段,而非自成一体的某种“创世纪”时刻,抛弃过去、颠覆一切。

某种程度上,我们可以把互联网基础设施的成熟、因此而产生的大量数据及数据处理技术、因数据丰富而进步的算法模型、进一步诞生的推荐算法等,以及移动互联网的最终繁荣,都看作一整个不间断进程里的组成部分,而今天大模型的爆发,则提供了彻底释放过往积淀技术和数据资产的能力。

这也意味着,大模型是个十分重要但依然独木难支的“大脑”,它需要与其他重要技术一起发挥作用,需要一整个系统来支撑,才能帮助这个系统完成升级。

这与人们一开始的尝试已经很不同。在如何把大模型通过应用落地的事上,短短不到两年时间已经有了三股浪潮。

第一波浪潮是 AI 聊天应用。但人们总是忘记 ChatGPT 是个“意外”的产物,最初只是用来展示模型已有能力的一个 demo,OpenAI 自己也没有准备好,没人预料到它引发的一系列变革。

因此在最初的第一个阶段,震惊的人们把一切幻想都寄托在一个神奇的对话框上——既然它可以表现出智能,那么我跟他对话就应该能解决一切问题。于是,各种大模型以一个对话框的形态变成产品,纷纷推出。

3.png

第二股浪潮,则是希望通过简单的 Prompt 等方法,来把这个对话框变成某些垂直场景的专家,进而来重建对应的垂直应用。GPT store 等就是这个阶段的产物。

现在各个大厂正理性迈入第三阶段:基于前两个阶段的尝试,它们发现想要单纯依赖一个对话框就重塑自己有些想当然,大模型的落地需要和已有的系统进行融合,利用已有的技术和资源来服务用户,而不是彻底重新来过。

看一看微软的一系列尝试,就能更好地理解这样的趋势。作为 OpenAI 的最大推手,微软在 ChatGPT 出现后,也第一时间希望通过一个万能对话框来拯救 Bing,成为未来 AI 时代的入口。

然而 ChatGPT 加持的 Bing,在争夺市场份额上效果一般。之后微软快速拥抱了 OpenAI 的 GPTs 理念,在它提供给 B 端用户的 Copilot Pro 服务中第一时间集成了 GPT store 的功能,但就在 3 个月后,它又决绝地下线了这个功能。

最终,微软真正一直延续下来的 AI 战略,还是把大模型融入已有的产品和生态中——从 Office Copilot,到最新的 AI PC 里最明星的产品 Recall,都是聚焦让大模型在已有的复杂的资源里挖掘潜能,进而真正落地。

4.png

这个技术路线现在被很多人定义为“AI Agent”(智能体),一个明显的共识是,AI Agent 越来越多地强调大模型能智能调用现有工具、服务和计算资源的能力。

大模型不是一切,但它能真正智能地调用一切。因此,它也需要一切。而这个“一切”在哪里呢?

在那些已融入生活的国民级产品和它已服务的万千复杂场景里。

苹果展示的“大模型增强版 Siri”可以带来的服务,正是基于它各种软硬件结合的系统级调用能力。支付宝智能助理在做的,同样是一个系统级工程。

以支付宝智能助理正在测试的“智能点单”功能举例:当用户说出“请给我点一杯星巴克的大杯冰拿铁”,大模型先让 AI 具有屏幕感知能力,能“看到”小程序页面,再通过仿真执行能力,快速完成所有过去需要用户点击的步骤,用户确认并付款后,就能到附近的线下门店取咖啡了。

5.png

支付宝没有选择简单调用数据接口,而是选择这一名为 ACT(Transformer for Actions)的智能服务技术,正是希望未来能通过 AI,连接背后数百万的小程序,乃至平台原有的数千种数字生活服务。

我们可以想见,未来的智能助理可以用一句话就能帮我们订票、挂号、制定出门行程……AI 也能从“通用”的大模型,变成“有用”的小工具,服务更多的普通人。

可以看到,无论是苹果或微软,还是支付宝或钉钉,国内外的平台产品,都不再执迷于以一种上帝视角去创造全新的需求。

它们决定让大模型从幻想的全能对话框里走出来,让 AI 融入生态,也让 AI 落入生活——这也许并不前瞻,但人人可见的大模型落地路径,反而能推动这个技术的真正潜能开始逐步兑现。

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章