HelloKitty • 2024-12-20 15:40
420
本文由 连线Insight 撰写/授权提供,转载请注明原出处。
文章来源于:连线Insight
作者:王慧莹
编辑:子夜
大模型应用大战即将一年整,竞争依然激烈。
12 月 18 日的火山引擎 Force 冬季大会上,字节跳动“豆包全家桶”又迎来了新成员。豆包视觉理解模型正式亮相,其具备更强的内容识别、理解和推理、视觉描述等能力;明年 1 月,豆包视频生成大模型也将面向企业开放服务。
除了新成员的加入,豆包大模型多款产品也迎来更新迭代。比如,豆包通用模型 pro 已全面对齐 GPT-4o;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型 2.1 版本接入即梦 AI 和豆包 App……
用户正在使用豆包视频理解模型,图源豆包微信公众号
无论是基础层,还是应用层,字节都在综合布局并持续迭代升级。截至目前,字节正在运营的 AI 应用大约有 20 款,且大部分是在 2024 年以后发布的。
进入到今年下半年,随着越来越多大模型应用的出现,行业卷起了新高度:C 端卷用户,B 端卷价格。
“饱和式”攻击的豆包,在哪个领域都上演了“后来者居上”的戏码。
用户上,据 QuestMobile 数据,字节豆包 App 今年 9 月的日活已达 760 万,成为中国日活最大的 AI 产品。
价格上,此次豆包视觉理解模型千 tokens 输入价格仅为 3 厘,比行业价格便宜 85%;此前豆包文字大模型 0.8 厘就能处理 1500 多个汉字的价格,比行业便宜 99.3%。
“卷王”豆包的另一面是行业正式进入混战后的生存之战。尽管现在谈论“Killer APP”还为时尚早,但商业化是个绕不开的话题。疯狂投入后,豆包也要学会赚钱。
与年初字节跳动 CEO 梁汝波在全员会上反思“慢”截然不同,这一年字节以豆包家族在大模型行业进行的进攻,又快又狠。豆包在行业的增长再次验证了字节“大力出奇迹”的路线,也给行业带来新的冲击和思考。
降价、买量,豆包拼力谋增长
今年年初,字节跳动 CEO 梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的敏感度不如创业公司。
“直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司都是在 2018 年至 2021 年创立的”梁汝波直言。
今年 5 月,大模型名字统一“豆包”后,字节正式走向了大模型发展的高速路。据 DataEye 研究院不完全统计,去年 8 月至今,字节跳动在 AI 领域一共推出包括豆包大模型家族在内的 17 款大模型、2 个智能体开发平台。
正值大模型从“百模大战”转向应用落地期,各家都在紧密跟随行业的风口,以期走在前列。
在应用层面,素有“APP 工厂”之称的字节,决心更大。据不完全统计,2024 年至今,字节在国内外推出包括豆包在内的 20 余款 App,覆盖 AI 聊天助手、AI 视频工具、AI 娱乐应用、办公等多个领域。
其中,有对标 ChatGPT 的“豆包”、对标 Sora 的“即梦”、对标 MiniMax 旗下社交 AI 星野的“猫箱”、对标妙鸭相机的“星绘”、对标 Suno AI 的“海绵音乐”……
12 月 18 日的火山引擎 Force 冬季大会上,字节跳动正式发布豆包视觉理解模型、豆包 3D 模型。会上,火山引擎宣布 2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线。
其中,跑得最快的莫过于以豆包为中心的大模型生态。
据量子位智库数据,今年 5-7 月,豆包 APP 日新增用户从 20 万迅速飙升至 90 万,并在 9 月率先成为国内用户规模破亿的首个 AI 应用;11 月,平均每天有 80 万新用户下载豆包,单日活跃用户近 900 万,MAU 仅次于 ChatGPT;截至 11 月底,豆包 2024 年的累计用户规模已超过 1.6 亿。
豆包这匹“黑马”奔跑的速度如此之快,离不开字节的“大力出奇迹”。
今年年中开始,大模型 C 端应用陷入了一场激烈的流量争夺赛。无论是线上平台,还是线下公开场所,都能看到大模型厂商的身影。创业公司和互联网巨头,无一例外地陷入了大模型应用的“用户焦虑”。
据 AppGrowing 统计,截至 11 月 15 日,国内十款 AI 原生应用合计投放金额达 15 亿元,其中 10 月超过 3.5 亿元,为历史最高。其中,Kimi 和豆包是投放最疯狂的两个产品,分别投放了 5.4 亿元和 4 亿元。
拉长时间线看,豆包的投流显然更猛烈。据 AppGrowing 统计,2024 年 4 月—5 月,豆包投放金额预计为 1500万元-1750 万元。6 月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达 1.24 亿元。
背靠抖音这一大流量池,豆包的出现频率也越来越高。在抖音,字节几乎屏蔽了除豆包以外所有 AI 应用的投放,只留给自家的豆包。
不得不承认,面对同质化的市场竞争,烧钱换流量,是移动互联网时代的惯用做法,而豆包背靠强大的字节生态,有着天生的优势。
大模型的特殊性在于,AI 产品仍存在用户接受度和留存率的挑战,重金投流能否换来超级应用无法确定,但至少目前给豆包带来了肉眼可见的用户增长。
同样是花钱,与 C 端花钱投流相对,随着大模型推理侧成本的下降,在 B 端大模型厂商今年集体降价,行业从“以分计价”进入“以厘计价”的时代。
豆包降价的动作同样很明显。今年 5 月火山引擎 Force 秋季大会上,豆包主力模型在企业市场的定价比行业价格降低了 99.3%,0.8 厘就能处理 1500 多个汉字的价格;此次的火山引擎 Force 冬季大会上,豆包视觉理解模型千 tokens 输入价格仅为 3 厘,一元钱就可处理 284 张 720P 的图片,比行业价格便宜 85%。
厂商让利降价的意图很明显,让算力技术普惠的同时,让企业用户使用 AI 应用的意愿更高端。数据显示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。
回过头来看 2024 年,围绕豆包生态,字节做 AI 的决心很大,也从资源、速度等方面证明了自己作为互联网巨头的实力。增长的底气有了,下一步的关键便是让大模型更好用。
一边提技术、一边“接地气”, 豆包能否更接近用户是关键
AI 浪潮奔涌两年,行业不断进入新阶段,不变的是玩家们对技术的迭代。
今年下半年,一个明显的变化在于,以 ChatGPT 为代表的大语言模型局限性日益显现。
语言大模型无法与物理世界互动,也不具备对人类价值观的理解能力,玩家们都在寻找下一个更“类人”的模型或应用。9 月,OpenAI 推出的会思考的 o1 推理模型;12 月,李飞飞推出的 3D 世界模型都是在这一思路下应运而生。
大模型这列列车高速前进,对于玩家而言,最重要的是拿到车票。反观国内,对标 OpenAI,豆包也算是走在技术前列的大模型玩家。
此次大会上,豆包发布的视觉理解模型,具备更强的内容识别、理解和推理、视觉描述等能力。
新的视频理解模型下,用户可以同时输入文本和图像相关的问题,使用起来更便捷;同时,模型能够综合理解能力给出准确的回答。
也就是说,相比于此前的文生视频大模型,此次视觉理解模型更能读懂人的需求,也能帮助人类提高复杂工作的工作效率。比如,在教育场景中,为学生优化作文、科普知识;在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识等。
据火山引擎介绍,目前豆包视觉理解模型已经接入豆包 App 和 PC 端产品。某种意义上,视觉理解大模型是行业技术迭代的标志。相比于语言大模型,视频大模型能拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。
视觉能力是大模型能力的核心已经是共识,视觉输入占据人类交互信息的绝大多数,为了让大模型离 AGI 更进一步,大家都在加速。
实际上,字节对视觉化、多模态模型的重视度肉眼可见的提升。12 月 11 日,据智能涌现报道,字节提升了即梦的产品优先级,尝试用新的路径打造AI时代的“抖音”。字节计划后续把更多资源向更多模态的产品形态转移,即梦会承担更大的希望。
即梦 AI 隶属于字节跳动旗下剪映业务,定位是 AI 内容平台,支持通过自然语言及图片输入,生成高质量的图像及视频。
此次大会上,剪映业务负责人张楠表示,“即梦,希望成为想象力世界的相机”似乎也在回应这一战略。具体动作上,即梦 AI 图片模型 2.1 正式上线,其可以“一句话生成海报”,支持通过简单的指令,控制文字的颜色和位置等元素,快速生成中英文图像海报。
值得一提的是,豆包还发布了 3D 生成模型,该模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。
不仅如此,豆包大模型家族多款产品都迎来重要更新。
豆包通用模型 pro 新版本综合任务处理能力较 5 月份提升 32%,全面对齐 GPT-4o,使用价格仅为后者的 1/8 在推理上提升 13%;
豆包音乐模型 4.0 支持三分钟的全曲创作,支持歌词局部修改,曲风连贯等功能;
豆包文生图模型 2.1 支持“一键 P 图”,可以高精度指令理解,对中英文、专有名词“来者不拒”。
至此,豆包全家桶升级的同时,豆包补足其在视觉交互上的短板,又开拓了自身模型的场景边界,还在算力成本上做了下降,本质上,都是为了让大模型更接近用户。
今年 5 月,字节跳动产品与战略副总裁朱骏分享了字节跳动为豆包这类产品定义了三个产品设计原则:第一条,“拟人化”;第二条,离用户很近,随时伴随用户,嵌入用户的不同使用环境,应该是豆包到用户身边,而不是用户到豆包身边;第三条,个性化。
让豆包回归用户,很重要的一点是让用户了解 AI,满足用户对 AI 的好奇心。据中国企业家报道,在豆包官方用户群里,每当新功能发布时,豆包小助手就会在群里发布公告,并鼓励用户提供优质反馈。
这也证明了,字节做产品的思维,在大模型领域同样适用。如今,大模型已经经历了卷技术、卷应用、卷用户的阶段,想要拿到下半场的船票,字节也必须带着豆包一边“提技术”,一边“接地气”。
拓场景、商业化,是豆包必须探索的
这一年,大模型行业除了技术迭代和产品更新速度的比拼,还有一个更重要的比拼维度,即商业化赚钱和场景落地的速度。
玩家进入的热情有多火热,市场对回报周期的需求就有多迫切。
对于字节这样的巨头而言,即便是赚钱的速度再快,也抵不过大模型的烧钱速度。算力成本、用户拓新等都需要真金白银。
还在投入期的豆包,绕不开商业化的命题。
经历了 C 端烧钱投流后,豆包是国内日活最多的 AI 产品,但一个突出的问题在于用户留存。
这让字节对豆包的商业化也有了新的思考。据智能涌现报道,尽管豆包 AI 对话类产品月活表现不错,但豆包目前活跃度并不高。豆包每周仅活跃 2 至 3 天,且每天用户发送消息轮次仅为 5 到 6 次,单次 2 分钟左右,用户人均使用时长仅为 10 分钟左右。上述这些数据在过去一年中的增长幅度并不显著。
基于此,字节管理层判断,像豆包这样的 AI 对话类产品可能只是 AI 产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致潜在的广告空间较小,这都构成了这类产品的隐形天花板。
长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是合适的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。
如果说豆包在 C 端是不停地探索应用与用户付费意愿的适配度,那在用户付费意愿更强的 B 端,豆包的重点在于探索豆包大模型与客户的契合度。
今年 5 月份,豆包已经确定了在 B 端的业务落地思路:火山引擎负责基座模型、开发者生态的构建,豆包负责应用的开发和调试。
得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,视觉理解模型进入“以厘计价”的同时,火山引擎还升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建好自身的 AI 能力中心,高效开发 AI 应用。
实际上,按照字节期待的飞轮效应,算力调用测试推动豆包大模型产品降价,大模型降价再吸引 B 端客户合作,客户的使用数据再给豆包带来更多的调用量。
目前,据火山引擎数据,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。
此外,在与企业生产力相关的场景中,豆包也有新的增长。最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍。
除了针对 B、C 端开放应用外,豆包还下场做起了今年的新风口智能硬件产品——Ola Friend。据介绍,该款耳机植入了豆包大模型,并与字节对话类 AI 应用豆包 App 结合:戴上智能耳机后,用户可通过语音对话随时使用豆包,在豆包 App 上也可以操控这款耳机。
此外,据 ITBEAR 报道,字节 AI 硬件团队还在积极推动豆包大模型与其他手机厂商的智能助手进行合作,以期在更广泛的场景下发挥大模型的强大能力。
种种信号表明,豆包正以各种方式打开大模型商业化的大门。商业化是摆在所有玩家面前共同的问题,学会赚钱,也是豆包的必修课。
于豆包而言,用“大力出奇迹”卷完应用之后,也要有进入下半场高歌猛进的资本,那就是一条更为清晰的商业路径。
(本文头图来源于火山引擎微信公众号。)
扫码关注公众号
获取更多技术资讯