HelloKitty • 2025-01-02 15:59
392
本文由 DoNews 撰写/授权提供,转载请注明原出处。
文章来源于:DoNews
撰文:文 林
编辑:杨博丞
继通用大模型的价格以厘计算之后,字节再次将多模态大模型带入“厘时代”。
在 12 月 18 日举办的火山引擎 Force 大会上,字节跳动正式发布发布豆包·视觉理解模型。同时公布其售价为千 tokens 输入 0.003 元,相当于一元钱就可处理 284 张 720P 的图片。
对比 claude 3.5 Sonnet 的 0.021 元/千 tokens,qwen-vl-max 的 0.02 元/千 tokens,GPT-4o 的 0.0175 元/千 tokens,豆包视觉理解模型比行业价格便宜 85%。
而在此之前的 5 月份,字节跳动发布的豆包大模型,其主力模型在企业市场的定价为 0.0008 元/千 Tokens,0.8 厘能处理 1500 多个汉字,比行业便宜 99.3%,让大模型从以分计价到以厘计价。
这一操作迫使阿里云的三款通义千问主力模型再次降价,最高降幅达 90%。百度智能云更是直接宣布,文心大模型的两款主力模型 ENIRE Speed、ENIRE Lite 全面免费。
不到一年半的时间,字节是如何做到在 AI 大模型市场后来居上?多模态大模型又发展到了哪一步?未来大模型技术在应用侧的新趋势会是什么?
国内第一全球第二,
“卷王”豆包后来居上
2023 年是国产大模型“大爆发”的一年。
自去年 3 月起,众多大厂及创新型企业纷纷亮出自研大模型产品:阿里通义千问 1.0、腾讯混元、360 智脑、华为盘古、科大讯飞星火、商汤日日新、百川大模型以及智谱 AI 的 GLM 等,均诞生于这一年。
作为 AI 起步较晚的选手,字节在去年 1 月才成立大模型研发团队,8 月才发布“云雀”大模型和对外测试 AI 对话产品“豆包”。
国内大模型发展时间线 图源:第一新声
尽管来得晚,但架不住人家涨得快。
据量子位智库数据显示,截至 11 月底,豆包 2024 年的累计用户规模已超过 1.6 亿;11 月平均每天有 80 万新用户下载豆包,单日活跃用户近 900 万,仅次于 OpenAI 的 ChatGPT,位列全球第二、国内第一。
而今年 5 月发布的豆包通用大模型,据字节跳动对外公布的数据显示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。
“豆包”能有这样增长,离不开字节这个“卷王”的大力推动。
首先就是卷流量。
据 App Growing 统计,截至 11 月 15 日,Kimi、豆包、星野等国内十款大模型产品,合计已投放超625万条广告,投放金额达 15 亿元。其中,Kimi 和豆包是投放最疯狂的两个产品,分别投放了 5.4 亿元和 4 亿元。
图源:App Growing
当下,花钱投流买量是 AI 产品启动一个最直接快捷的方式。而在各家的投放渠道中,基本都离不开字节的巨量引擎(字节跳动旗下广告投放平台,涵盖今日头条、抖音、西瓜视频等营销资源)。
这使得背靠字节的豆包将流量池的优势发挥到了极致。在抖音上,字节几乎屏蔽了除豆包以外所有 AI 应用的投放,只留给自家的豆包。尽管重金投流能否换来超级应用无法确定,但至少目前给豆包带来了肉眼可见的用户增长。
其次是卷产品。
从聊天助手、视频工具,到娱乐应用、办公领域,字节陆续推出了十几个 AI 应用,覆盖了几乎所有主要 AI 产品方向。字节今年10月还推出了能与豆包语音对话的 Ola Friend 耳机,近期还在研发 AI 眼镜。
这样饱和式的研发,一方面能让豆包大模型依托诸多 AI 应用加速迭代,另一方面则是期待 AI 硬件终端能拓宽豆包大模型使用场景,进而实现整个“豆包+”产业链闭环。
此外,豆包也在卷场景,以期在应用层面多点开花。
据了解,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。而最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。
可以说,丰富的内部生态、持续的资源投入、庞大的优质数据和应用场景,且都全面接入 AI 并相互打通,这才是豆包能成为行业“卷王”的秘诀。
“百模大战”下半场,
开始比拼多模态
自 OpenAI 推出 Sora,让“一句话生成视频”变成可能;谷歌发布 Gemini ,可以泛化并无缝地理解、操作和组合不同类型的信息,国内主要公司就开始陆续跟进、布局视频、音乐、语音等多模态 AI 应用。
例如,今年 5 月开始,生数科技 Vidu、快手可灵、字节即梦、智谱清影、商汤 Vimi 等都相继发布文生视频模型;9 月,MiniMax 正式发布视频模型 video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布 MiracleVision 大模型完成视频生成能力的升级;到了 11 月,腾讯混元大模型正式上线视频生成能力,月之暗面旗下 Kimi 则被爆出正在内测 AI 视频生成功能“Kimi 创作空间”......多模态的“多”正在成为新的发展方向。
通过腾讯元宝APP-AI应用-AI视频即可使用该功能 图源:腾讯优图实验室
而此次火山引擎发布的豆包·视觉理解模型,据介绍,主要能力包括:
更强的内容识别能力:不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。
更强的理解和推理能力:不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。
更细腻的视觉描述能力:可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作。
继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为“视觉”是下一个爆发的赛道。毕竟人类的五感之中有 80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径。
火山引擎总裁谭待也在采访中表示,推出视觉理解模型相当于解锁了一个很大的场景,同过去只有文字对话形式的AI相比,聊天功能与深度推理的、图像视觉理解等能力的融合,能让模型有能力处理好真实世界大量综合性的信息,辅助人类完成一系列复杂工作。
比如,在旅游场景中,帮助游客看外文菜单、讲解照片中建筑的背景知识;在教育场景中,为学生优化作文、科普知识;在办公场景下,除了识别内容,模型还能帮助用户分析图表中的数据关系,处理代码逻辑。
豆包·视觉理解模型教育场景应用案例 图源:火山引擎 Force 大会
此外,火山引擎除了推出视觉理解模型之外,还发布、升级了多个其他模型。比如,豆包通用模型 pro 已全面对齐 GPT-4o;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型2.1版本接入即梦AI和豆包App......
可以看出,尽管相比于市场同类产品,豆包系列大模型发布的时间并不算早,但一直保持着较快速度的更新,并且将最新能力通过即梦 AI、豆包 App 等应用,迅速开放给了普通用户使用。
而当下,AI 市场关注的重心正逐渐从“大模型”转变到“大模型+”。除了常规的 AI 文本对话类应用,多模态的“多”正在成为新的方向。
“应用之战”打响,
大模型到了该“验收”的时候
在 2024 世界人工智能大会上,百度创始人李彦宏在演讲中提到,“2023 年国内出现了百模大战,其实造成了社会资源的巨大浪费,尤其是算力的浪费。”的确,无论是技术上的研发成本,还是应用上的运行成本,大模型的成长每一步都少不了真金白银的支持。
在行业回归理性的今天,越来越多的 AI 企业意识到卷参数量、卷 Token 数、卷集群规模、卷价格,其实都意义不大,大模型的商业化落地才是最需要关注的问题。
而按终端用户类型,AI 大模型的商业模式可分为 to C、to B。
lto C:即面向个人消费者,包括免费和付费订阅模式。免费模式如腾讯元宝、百度的文心一言(3.5 版本);付费订阅模式如百度的文心一言(4.0 版本)、OpenAI 的 ChatGPT(4.0 版本);
lto B:即面向企业,包括 API 调用授权、SaaS 模式。API 调用授权模式中,企业客户可在自己的应用程序或服务中集成 AI 功能,通常基于调用次数或数据量来计费,如阿里通义千问、智谱 AI;SaaS 模式中,大模型企业为客户提供软件服务,客户无需安装和维护软件,如 Google Cloud AI。在实际应用中,大模型企业通常混合使用多种商业模式。
图源:AI绘图
当下多模态大模型竞争火热,将带动诸多行业重塑生产环节,势必会在以下几个领域引发新一轮的升级与角逐:
影音创作:当大模型由单模态生成转向多模态生成,AIGC 应用降低了专业创作门槛,这将改变影音传媒行业的生产模式,塑造全新内容生产范式,实现创作效率提升、创作空间拓展及作品质量提升的目标。
情绪智能:基于最新的 AI 模型如 GPT-4o 和 Gemini 1.5 Pro,未来 AI 陪伴将通过流式语音识别、多模态 AI 和情感计算等技术极大地提升互动体验。这意味着多模态大模型将赋予机器情感价值,并通过深度分析用户的情感和行为,满足用户的多元化陪伴诉求。
工业智造:未来多模态大模型有望与当前普遍使用的专用小模型互补融合,深度赋能工业制造的各个环节,并随着场景数据的整合和积累,进一步升级感知和理解能力,以满足生产制造中的个性化需求,从而推动工业产业变革。
总之,现如今 AI 领域的竞争核心,已经从大模型的“有无之战”变成了“应用之战”。在这个阶段里,比拼的不再是宏观概念,而是落地能力和商业化的进展。
随着国内大模型持续迭代与升级,叠加国内 GPU 供应问题逐步缓解、政策牵引等,国内大模型训推算力需求有望逐步释放,这不仅将为大模型的落地应用进一步提速,也将给 AI 时代带来新的行业机遇。
扫码关注公众号
获取更多技术资讯