五月全球“AI大爆炸”：卷技术、拼落地、比价格

HelloKitty • 2024-05-20 16:05

扫一扫在手机阅读、分享本文

5271

本文由连线Insight 撰写/授权提供，转载请注明原出处。

文章来源于：连线Insight

作者：王慧莹

编辑：子夜

这个五月，全球科技圈异常热闹。

先是 OpenAI 和谷歌掰手腕，后有微软、苹果的开发者大会即将召开；反观国内，大厂和创业公司也都在拼场景、卷技术。

5 月 15 日，谷歌举办了 2024 年 I/O 开发者大会，AI 是全场的主题，谷歌发布了 Gemini 1.5 Pro 的新版本，谷歌 CEO 皮查伊宣布谷歌已经全面进入 Gemini 时代。

原本打算掀起全球的科技狂欢的谷歌没想到被 OpenAI 抢了先。

就在谷歌发布会前一天，OpenAI 举行了春季发布会，发布最新多模态大模型 GPT-4o，相较于 GPT-4 Trubo 速度更快、价格也更便宜。更重要的是，该大模型响应速度更接近人类水平，无限接近现实。

OpenAI 这场空降的发布会，被市场看作是对谷歌的“截胡”和“狙击”。双方“掰手腕”的核心竞争点在于 AI，这个令全球科技市场兴奋的技术，一场关于 AI 技术的比拼再度开启。

大洋彼岸的中国，也聚集了一众参与大模型军备竞赛的玩家，正努力缩小与国外科技公司的差距，并在场景、价格、落地上有更多的探索。

5 月 15 日，字节近期推出豆包大模型，日均处理 1200 亿 Tokens 文本，生成 3000 万张图片；5 月 14 日，腾讯混元大模型升级开源，采用与 Sora 同款 DiT 架构；5 月 9 日，阿里云正式发布通义千问 2.5，模型性能全面赶超 GPT-4 Turbo……

经过一年多的发展，大模型技术不断提高，玩家们要面对的不仅是技术上的差距，更重要的是如何通过场景落地、商业化覆盖大模型高昂的训练成本以及研发成本。

新一轮的技术大爆炸开始了，新一轮的竞赛也开始了。

OpenAI 与谷歌的 AI 竞赛，拉开新一轮技术大爆炸的序幕

连着两天，大洋彼岸的 OpenAI 和谷歌掀起了新一轮的AI军备竞赛。

5 月 14 日凌晨，继上周预告了 ChatGPT 和 GPT-4“就像魔法一样”的重大更新后，OpenAI 揭开了最新大模型的神秘面纱。

会上，OpenAI 发布了新旗舰模型“GPT-4o”，这里的“o”代表“omni”，意为“全能”。顾名思义，最新的 GPT-4o 是款全能型大模型，也是 OpenAI CEO 阿尔特曼口中“很有意思的东西。”

为了彰显“全能”，OpenAI 首席技术官米拉·穆拉蒂用大量篇幅介绍 GPT-4o 的先进程度。比如，GPT-4o 可以综合利用语音、文本和视觉信息进行推理；GPT-4o 在 GPT-4 的基础上，新增语音处理能力，掌握多国语言；GPT-4o 还可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

用 OpenAI 官网的话来解释，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上也达到了新高水位线。

整场发布会最大的亮点，也是最特别之处莫过于 GPT-4o 更像人。

图源OpenAI官网

一方面，GPT-4o 几乎可以做到即时回应，没有停顿。OpenAI 表示，在 GPT-4o 推出之前，用户使用语音模式与 ChatGPT 进行对话时，延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒，GPT-4o 将这一延迟被大幅缩短为 320 毫秒。

另一方面，GPT-4o 能在与人的对话中，通过图表、图像等形式判断用户的情绪、状态，并给出“情绪化”的回应——夸张的、戏剧的、低沉的……

当电影《Her》中的画面照进现实，GPT-4o 的“拟人化”给了市场足够多惊喜。GPT-4o 驱动下的 ChatGPT，已不再是一个单纯追求性能的 AI 工具，而是可以主动给予用户情绪价值的 AI 助理。

这一次，GPT-4o 的出现，是 OpenAI 向本就不平静的池水中投掷了一枚极具杀伤力的炸弹，并直指同在硅谷的科技巨头谷歌，谷歌必须直面劲敌。

就在 OpenAI 开发布会的第二天，谷歌年度 I/O 开发者大会主题演讲上，谷歌 CEO 皮查伊发布数十款 Google 和 AI 结合产品，堪称“全家桶”级别，全力对战 OpenAI。

其中包括支持 200 万 Tokens 长文本的 Gemini 1.5 Pro 和 Gemini 1.5 Flash、谷歌版 Sora 技术 Veo，最强开源模型 Gemma 2，支持生成式搜索的 AI Overviews、第六代 TPU 等。

围绕 AI，皮查伊及同事进行了长达 110 分钟的演讲，据谷歌统计，皮查伊提及 AI 的次数高达 121 次。

不过，有 GPT-4o“拟人”在前做标杆，谷歌发布会最受关注的莫过于 AI 助手 Project Astra。

相比于谷歌上一代 AI 助手 Google Assistant，Project Astra 是一个实时、多模式的AI助手，通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互，没有延迟或延迟，可以回答问题或帮助你做几乎任何事情。

演示视频中，Project Astra 可以通过手机摄像头识别现实环境，实现了能看、能说、能听。这与前一天 GPT-4o 的功能不谋而合。

图源谷歌官网

相比于 GPT-4o 提供情绪价值，Project Astra 更强调指向人、机器与现实世界的三重交互。用谷歌 Deepmind 负责人哈萨比斯的话说，这是真正通向 AGI 的万能助手项目。

此外，谷歌还针对生成式 AI 大模型 Gemini 进行了多功能拓展。

谷歌在 Gemini Advanced 中加入新模型成员 Gemini 1.5 Pro，称它拥有的上下文窗口在全球消费类聊天机器人中最长，窗口起始就有 100 万个 Tokens；今年年底，这个数字将被扩大到 200 万 Tokens，最终目标是无限上下文；Gemini 1.5 Pro 将向 150 多个国家地区的 Gemini Advanced 订阅者提供，支持超过 35 种语言。

在多模态功能方面，今年夏季谷歌将扩展 Gemini 用语音进行深入双向对话的能力，该功能被称为 Live。通过 Gemini Live，用户可以与 Gemini 交谈，并可以从各种自然的声音中选择它回应的声音，用户甚至可以按照自己的节奏说话；谷歌还表示，今年年内将加入相机功能，实现实时视频。

全面接入 Gemini 的“谷歌办公全家桶”，也将在未来几个月内陆续上线“智能问答”“智能邮件回复”“表格图像化总结”等新功能。

在谷歌最擅长的搜索上，谷歌在一周内将在美国推出“AI 概览”（AI Overviews）功能，搜索引擎会直接归纳总结搜索结果；谷歌还推出了新的 TPU，第六代 TPU 芯片 Trillium，较上一代芯片的算力表现翻 4.7 倍。

可以看到，在全球技术的中心硅谷，OpenAI 与谷歌的“厮杀”正如火如荼地进行着。更重要的是，GPT-4o 的限量免费抬高了这场竞争的维度，未来的谷歌如何应战，还要看市场后续的表现。

卷技术、拼落地、比价格，国内大厂竞逐大模型风口

大模型风口之下，AI 重构了边界，也掀起了一众创业者和巨头们探索新业务的热情。

当这样的热情来到大洋彼岸的中国，丝毫没有减少。和硅谷的公司几乎同步，国内大厂也在大模型风口上你追我赶。

一个明显的变化是，去年国内大厂还处在大模型军备竞赛的初期，竞相推出大模型产品；今年，经过一年的技术发展，大厂们的竞争点不仅限于技术，还有价格，更重要的是落地场景。

5 月 9 日，阿里云正式发布通义千问 2.5，宣布模型性能全面赶超 GPT-4Turbo，成为地表最强中文大模型。

在阿里云 AI 峰会上，阿里云首席技术官周靖人介绍，阿里云大模型 API 日调用量已经过亿；除了日常 2C 应用外，也服务了 9 万家企业客户；尤其在开源场景中，周靖人强调，开源是阿里云的战略。目前通义开源模型下载量已超过 700 万。

同样选择对外开源的还有腾讯混元文生图大模型。5 月 14 日，腾讯宣布其旗下混元文生图大模型全面升级，并对外开源。这也是首个中文原生的类 Sora 架构开源模型，支持中英文双语输入及理解，参数量 15 亿。

放眼市场，当下的文生图开源生态，比如 Stable Diffusion 基本围绕英文语义理解，要先把中文翻译成英文才能生成图片。腾讯混元文生图大模型的出现，打破了这一现状，让文生图生态更了解中文。

值得注意的是，腾讯在大模型上的打法有着明显的产品思维。自去年 9 月混元大模型上线以来，腾讯采取的就是“大模型全家桶”策略，其内部目前已有超 400 个业务在接入腾讯混元大模型。比如，此次混元大模型升级后，既可以是微信读书的“AI 问书”，也可以是腾讯会议的“AI 小助手”。

事实上，关于开源还是闭源，行业的讨论由来已久。百度创始人李彦宏曾表示，“大模型开源的意义其实不是很大，这些开源模型都是在外头零零散散小规模地去做各种各样的验证应用，它没有经过大算力的验证。”

“对百度而言，开源还得自己去维护一套开源的版本，这是不划算的；相反，同等能力下，闭源模型的推理成本一定是更低的，响应速度一定是更快的。”李彦宏认为。

这样的路径之下，百度文心一言采用了闭源模式。近期，百度推出多个轻量级大语言模型，并上线 Agent Builder、App Builder 和 Model Builder 三大开发工具，帮助开发者和企业创建智能体、开发AI原生应用和定制模型。

据百度 2024 年一季度财报披露，发布一年多，“文心一言”用户数突破 2 亿，文心大模型日调用量也达 2 亿。

本质上，开源还是闭源，是大模型厂商在成本和技术上衡量。尤其是在大模型应用市场，大家都试图推出更普惠的大模型应用。

最突出的是字节豆包大模型。5 月 15 日，尽管没有公布榜单成绩和参数规模，但豆包大模型靠价格出圈了。

豆包主力模型 pro-32k 版的模型推理输入价格仅为 0.0008 元 / 千 Tokens，相当于一元钱就能买到 125 万 Tokens，比行业价格低 99.3%；在处理 128K 长文本时，豆包通用模型 pro 的推理输出价格为 0.005/ 千 Tokens。

这堪称是行业“地板价”。以 OpenAI 发布的全新模型 GPT-4o 为例，GPT-4o 的价格已经来到输入 5 美元 / 百万 Tokens（约为 0.035 元/千 Tokens），输出 15 美元 / 百万 Tokens（约为 0.1 元/千 Tokens）；而像阿里、腾讯等国内大模型均价在 0.12 元/千 Tokens 左右。

火山引擎总裁谭待在接受媒体采访时提到，“降价是用技术优化成本来实现的。如果只是补贴，用亏损换收入是不可持续的，火山引擎不会走这条路。”

如何进行技术优化，据介绍，模型本身就有优化的空间，模型结构、训练方法都可以持续改进，包括业界很关注的 MoE（混合专家模型），就是优化推理成本很好的解决方案。

其次是工程上的优化。大模型的调用量越大，优化推理成本的空间也越大。以前的模型都是单机推理，大模型用的是分布式推理。所以如果能把各种各样的底层算力用得更好，推理成本就会大大降低。

事实上，为了让用户可以低成本地使用 AI，并推动应用的发展，降价是国内大模型厂商的共识。

今年 2 月份，阿里云宣布全线下调云产品官网售价，平均降价幅度超过 20%，最高降幅达 55%，涉及 100 多款产品、500 多个产品规格，4 月份，阿里云将降价策略扩大至海外公有云产品。

大厂们之所以打起价格战，是因为大模型价格越低，使用的人越多；使用量越大，大模型才能被调用得越来越好。简言之，价格力的出现，才能推动大模型更好地落地。

2024 年，被行业看作是大模型落地元年，推出大模型已不再是新鲜事，重要的是充分释放大模型的生产力，如何真正实现落地。

对于大模型厂商而言，如何真正服务好企业，是考验各家 AI 产品是否是个好商品的重要标准。

火热和洗牌并行，资本市场更冷静看待大模型

从 ChatGPT 横空出世后，大模型的火热有目共睹。面对大模型带来的技术革命，不仅是微软、谷歌、百度、字节、阿里、腾讯等大厂下场做大模型，众多与AI相关的创业公司涌现出来。

在我国，更是诞生了“新 AI 四小龙”：百川智能、月之暗面、MiniMax、智谱 AI。从估值上看，除百川智能估值超百亿元外，月之暗面、MiniMax 目前估值分别为超 23 亿美元和超 25 亿美元，智谱 AI 估值超百亿元。

“新 AI 四小龙”快速成长的背后，是资本的助推。CBInsights 数据显示，2023 全年生成式 AI 新创在全球获得约 204 亿美元融资，是 2022 年 36 亿美元的 5 倍以上。

火热的背后，也有一些现象值得思考。最为明显的一点是，与上一代移动互联网创业潮相比，这场 AI 掀起的创业潮，资本和创业者都显得更为冷静谨慎。

从创业者角度看，大模型创业从研发大模型，到落地应用场景，这条路的成功不仅依赖资金的投入和人力的积累，更需要过硬的技术和清晰的落地路径，缺一不可。

从资本角度看，创业公司烧钱换增长在大模型行业是行不通的，投资者不会因为短暂的增长就不遗余力地押注真金白银。

市场研究机构 CB Insights 发布的《2023 年人工智能行业现状报告》指出，2023 年中国 AI 领域的投融资案例数量约为 232 起，与去年同期相比下降了 38%；融资总额约为 20 亿美元，同比大幅下降了 70%。

肉眼可见的是，市场冷静下来了，在钱少的时候，对于创业公司而言，活下来更加重要。尤其是到了今年，商业化、落地等关键词成为大模型新的竞赛点后，商业模式不清晰，营收增长乏力的企业或面临危机，行业或将迎来真正洗牌阶段。

从新变化看，今年，场上大模型玩家都从围绕模型层的“参数之争”，转变为发力应用层的“用户之争”，百度创始人李彦宏也多次表示“卷模型不如卷应用”。

海外市场和国内类似，投资 Facebook 和 Salesforc 的 Meritech Capital，以及 TCV、General Atlantic、Blackstone 等机构纷纷暂停对生成式 AI 的关注。Gartner 分析师 John-David Lovelock 称，大模型数十亿美元的投资数量已经放缓且几乎已经结束，热钱涌向 AI 应用。

今年 5 月这波技术大爆炸后，玩家们都瞄准了“更像人”的方向，即推出互动能力更强的 AI 助手。

过去一周内，创业公司月之暗面和零一万物接连发布 Kimi+ 和万知，两款产品定位均为 AI ***手。其中，Kimi+ 搭建了一套智能体商店，包含办公助手、研报生成、学术搜索、提示词设计、辅助写作等场景；万知则是一套一站式 AI 工作平台，覆盖写作助手、文件解读、PPT 图文制作等功能。

同时，也有一些企业从加入“百模大战”开始，就将应用落地放在重要位置。举例而言，“技术顶天，应用落地”是科大讯飞在发展大模型过程中始终遵循的两项准则，在研发技术的同时，思考场景落地与商业化。

近期，科大讯飞披露投资者关系活动记录表显示，其多模态大模型能力已广泛应用在教育、医疗、工业、汽车、机器人等领域。此外，科大讯飞与人保集团联合发布了人保首个百亿级参数的专属问答领域大模型“人保大模型”；在软件等 IT 行业，科大讯飞的 AI 程序员不仅在公司内部使用，也已经在软通动力、交通银行等 100 多家企业“上岗”。

从爆火至今，大模型经历了很多个重要节点，其中最重要的是从参数到应用的演变，大模型跑得快的标准正变成好用和实用。

行业的共识在于，通用大模型公司的能力水平再高，最终也要依靠商业化造血，底层通用大模型可能最终仅剩少数玩家，但应用层的创业生态会相对繁荣。

从这点上看，新一轮的 AI 应用竞赛或许不会出现一家独大的情况，巨头和创业公司都将有机会突围。不过，硅谷掀起的这场席卷全球的科技竞赛，已经呈现出更内卷的态势，这考验着各个玩家的技术实力和赚钱能力，想不被淘汰，只能跑得更快。

*插播一条消息：在全球化的时代浪潮中，AI+跨境电商正迎来前所未有的发展机遇，为了让不同领域的企业聚集在一起，展示在AI跨境电商领域的服务和产品，促进行业内的信息流通和合作机会，白鲸跨境与白鲸技术栈正在招募一群富有激情和创造力的伙伴，共同绘制AI+跨境电商的生态图谱！如有感兴趣者，可点击下方链接进行报名。

AI+跨境电商图谱招募令报名链接：https://www.baijing.cn/activity/1636

微信图片_20240222160346.png