从烧钱到落地，大模型到了“验收”时刻

HelloKitty • 2025-01-02 15:59

扫一扫在手机阅读、分享本文

1849

本文由 DoNews 撰写/授权提供，转载请注明原出处。

文章来源于：DoNews

撰文：文林

编辑：杨博丞

继通用大模型的价格以厘计算之后，字节再次将多模态大模型带入“厘时代”。

在 12 月 18 日举办的火山引擎 Force 大会上，字节跳动正式发布发布豆包·视觉理解模型。同时公布其售价为千 tokens 输入 0.003 元，相当于一元钱就可处理 284 张 720P 的图片。

对比 claude 3.5 Sonnet 的 0.021 元/千 tokens，qwen-vl-max 的 0.02 元/千 tokens，GPT-4o 的 0.0175 元/千 tokens，豆包视觉理解模型比行业价格便宜 85％。

而在此之前的 5 月份，字节跳动发布的豆包大模型，其主力模型在企业市场的定价为 0.0008 元/千 Tokens，0.8 厘能处理 1500 多个汉字，比行业便宜 99.3%，让大模型从以分计价到以厘计价。

这一操作迫使阿里云的三款通义千问主力模型再次降价，最高降幅达 90%。百度智能云更是直接宣布，文心大模型的两款主力模型 ENIRE Speed、ENIRE Lite 全面免费。

不到一年半的时间，字节是如何做到在 AI 大模型市场后来居上？多模态大模型又发展到了哪一步？未来大模型技术在应用侧的新趋势会是什么？

国内第一全球第二，

“卷王”豆包后来居上

2023 年是国产大模型“大爆发”的一年。

自去年 3 月起，众多大厂及创新型企业纷纷亮出自研大模型产品：阿里通义千问 1.0、腾讯混元、360 智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱 AI 的 GLM 等，均诞生于这一年。

作为 AI 起步较晚的选手，字节在去年 1 月才成立大模型研发团队，8 月才发布“云雀”大模型和对外测试 AI 对话产品“豆包”。

国内大模型发展时间线图源：第一新声

尽管来得晚，但架不住人家涨得快。

据量子位智库数据显示，截至 11 月底，豆包 2024 年的累计用户规模已超过 1.6 亿；11 月平均每天有 80 万新用户下载豆包，单日活跃用户近 900 万，仅次于 OpenAI 的 ChatGPT，位列全球第二、国内第一。

而今年 5 月发布的豆包通用大模型，据字节跳动对外公布的数据显示，截至 12 月中旬，豆包通用模型的日均 tokens 使用量已超过 4 万亿，较七个月前首次发布时增长了 33 倍。

“豆包”能有这样增长，离不开字节这个“卷王”的大力推动。

首先就是卷流量。

据 App Growing 统计，截至 11 月 15 日，Kimi、豆包、星野等国内十款大模型产品，合计已投放超625万条广告，投放金额达 15 亿元。其中，Kimi 和豆包是投放最疯狂的两个产品，分别投放了 5.4 亿元和 4 亿元。

图源：App Growing

当下，花钱投流买量是 AI 产品启动一个最直接快捷的方式。而在各家的投放渠道中，基本都离不开字节的巨量引擎（字节跳动旗下广告投放平台，涵盖今日头条、抖音、西瓜视频等营销资源）。

这使得背靠字节的豆包将流量池的优势发挥到了极致。在抖音上，字节几乎屏蔽了除豆包以外所有 AI 应用的投放，只留给自家的豆包。尽管重金投流能否换来超级应用无法确定，但至少目前给豆包带来了肉眼可见的用户增长。

其次是卷产品。

从聊天助手、视频工具，到娱乐应用、办公领域，字节陆续推出了十几个 AI 应用，覆盖了几乎所有主要 AI 产品方向。字节今年10月还推出了能与豆包语音对话的 Ola Friend 耳机，近期还在研发 AI 眼镜。

这样饱和式的研发，一方面能让豆包大模型依托诸多 AI 应用加速迭代，另一方面则是期待 AI 硬件终端能拓宽豆包大模型使用场景，进而实现整个“豆包+”产业链闭环。

此外，豆包也在卷场景，以期在应用层面多点开花。

据了解，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC 等智能终端，覆盖终端设备约 3 亿台，来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。而最近 3 个月，豆包大模型在信息处理场景的调用量增长了 39 倍，客服与销售场景增长 16 倍，硬件终端场景增长 13 倍，AI 工具场景增长 9 倍，学习教育等场景也有大幅增长。

可以说，丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景，且都全面接入 AI 并相互打通，这才是豆包能成为行业“卷王”的秘诀。

“百模大战”下半场，

开始比拼多模态

自 OpenAI 推出 Sora，让“一句话生成视频”变成可能；谷歌发布 Gemini ，可以泛化并无缝地理解、操作和组合不同类型的信息，国内主要公司就开始陆续跟进、布局视频、音乐、语音等多模态 AI 应用。

例如，今年 5 月开始，生数科技 Vidu、快手可灵、字节即梦、智谱清影、商汤 Vimi 等都相继发布文生视频模型；9 月，MiniMax 正式发布视频模型 video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布 MiracleVision 大模型完成视频生成能力的升级；到了 11 月，腾讯混元大模型正式上线视频生成能力，月之暗面旗下 Kimi 则被爆出正在内测 AI 视频生成功能“Kimi 创作空间”......多模态的“多”正在成为新的发展方向。

通过腾讯元宝APP-AI应用-AI视频即可使用该功能图源：腾讯优图实验室

而此次火山引擎发布的豆包·视觉理解模型，据介绍，主要能力包括：

更强的内容识别能力：不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。

更强的理解和推理能力：不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算。

更细腻的视觉描述能力：可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作。

继 GPT-4 在语言方向的里程碑式突破之后，业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息，未来的大模型也应该充分利用更多种类的感官，以此探索实现 AGI 的路径。

火山引擎总裁谭待也在采访中表示，推出视觉理解模型相当于解锁了一个很大的场景，同过去只有文字对话形式的AI相比，聊天功能与深度推理的、图像视觉理解等能力的融合，能让模型有能力处理好真实世界大量综合性的信息，辅助人类完成一系列复杂工作。

比如，在旅游场景中，帮助游客看外文菜单、讲解照片中建筑的背景知识；在教育场景中，为学生优化作文、科普知识；在办公场景下，除了识别内容，模型还能帮助用户分析图表中的数据关系，处理代码逻辑。

豆包·视觉理解模型教育场景应用案例图源：火山引擎 Force 大会

此外，火山引擎除了推出视觉理解模型之外，还发布、升级了多个其他模型。比如，豆包通用模型 pro 已全面对齐 GPT-4o；音乐模型从生成 60 秒的简单结构，升级到生成 3 分钟的完整作品；文生图模型2.1版本接入即梦AI和豆包App......

可以看出，尽管相比于市场同类产品，豆包系列大模型发布的时间并不算早，但一直保持着较快速度的更新，并且将最新能力通过即梦 AI、豆包 App 等应用，迅速开放给了普通用户使用。

而当下，AI 市场关注的重心正逐渐从“大模型”转变到“大模型+”。除了常规的 AI 文本对话类应用，多模态的“多”正在成为新的方向。

“应用之战”打响，

大模型到了该“验收”的时候

在 2024 世界人工智能大会上，百度创始人李彦宏在演讲中提到，“2023 年国内出现了百模大战，其实造成了社会资源的巨大浪费，尤其是算力的浪费。”的确，无论是技术上的研发成本，还是应用上的运行成本，大模型的成长每一步都少不了真金白银的支持。

在行业回归理性的今天，越来越多的 AI 企业意识到卷参数量、卷 Token 数、卷集群规模、卷价格，其实都意义不大，大模型的商业化落地才是最需要关注的问题。

而按终端用户类型，AI 大模型的商业模式可分为 to C、to B。

lto C：即面向个人消费者，包括免费和付费订阅模式。免费模式如腾讯元宝、百度的文心一言（3.5 版本）；付费订阅模式如百度的文心一言（4.0 版本）、OpenAI 的 ChatGPT（4.0 版本）；

lto B：即面向企业，包括 API 调用授权、SaaS 模式。API 调用授权模式中，企业客户可在自己的应用程序或服务中集成 AI 功能，通常基于调用次数或数据量来计费，如阿里通义千问、智谱 AI；SaaS 模式中，大模型企业为客户提供软件服务，客户无需安装和维护软件，如 Google Cloud AI。在实际应用中，大模型企业通常混合使用多种商业模式。