HelloKitty • 2024-12-26 17:00
263
本文由 新硅NewGeek 撰写/授权提供,转载请注明原出处。
文章来源于:新硅NewGeek
作者:董道力
编辑:张泽一
AI 降低了人们对技术进步的敏感性,让一切发展都变快了。
在想象中,技术的进步似乎应该是在不经意间改变生活方式,但人工智能的火热却总是停留在微博和知乎上,大众也在这种事不关己的喧嚣中,日渐脱敏。
这种现象尤其展现在 AI 圈各类话题的热度上,站在年末去回顾全年,不难发现引发最多讨论的其实就两件事:
字节实习生攻击大模型训练、月之暗面和朱啸虎的资本博弈。
但这绝不是中国AI圈最真实的样貌,我们可以轻描淡写地说某个 AI 功能“没啥了不起”,某个技术突破“不过如此”,可站在年末,我们去审视 2024 年这一年依旧是一场不折不扣的技术狂飙。
大模型更加实用,但不再惊艳
2024 年初,国内大模型领域呈现出“群雄逐鹿”的局面。据《每经》统计,截至 2024 年 4 月,已经有 305 个大模型问世,去年诞生的新词“百模大战”到今天依然适用,但价格战的爆发和应用侧的需要已经事实上清退了绝大多数本就没必要诞生的模型。
第一个趋势是小参数的端侧模型。中杯大杯特大杯的分类已经无法满足各类场景的不同需求,大参数模型拥有强大的能力,但它们的训练和调用成本高昂,在硬件能力有限的情况下难以普及。
端侧模型的出现让简单的 AI 应用进入日常生活不再遥远,最典型的案例是手机/PC 端侧模型,比如小米的 MiLM、vivo 的蓝星大模型等等,它们既在手机上保留关键能力,又能降低资源消耗,这类模型的部署很大程度上成为了 AI 渗透日常的关键一步。
在此基础上,另一大趋势是混合专家(MoE)技术的应用,一种使模型调用成本更低但依然高效的解决方案。普通的大模型就像一个全知全能的专家什么都会,但价格昂贵(算力需求高)。而 MoE 模型则如同邀请了一个专家团队,这些专家分别擅长不同领域,用户在需要时调动对应的专家即可。通过这一机制,模型的算力需求和成本大大降低。以 Mixtral-8x7B 为例,它在性能上与 GPT-4 差距不大,但在资源需求上却低得多。
此外,多模态的研究也开始成为 2024 年大模型发展的一个重要方向。人类认知世界是通过视觉、声音、触觉等多模态的方式来实现的,而大模型如果想要真正具备智能,同时真正具备应用价值,仅靠文字输入和输出显然是不够的。以生成配图为例,AI 不仅需要理解文字内容,还要能把握图像的语境,随着谷歌发布原生多模态大模型 Gemini,多模态能力成为了各大 AI 公司研究的重点。
对于普通用户来说,大模型回答内容的好坏没有一个特定的评判标准,但大模型能读取的内容越多一定越强。今年 3 月份,月之暗面的 kimi 选择了卷“超长文本”这条路。原本我们想让大模型读一本书,或者一篇长文章,都需要用上各种提示词,而 kimi 直接把大模型的读取能力提高到能够处理 200 万上下文长度,相当于3本《红楼梦》。随后 kimi 在国内的影响力一路飙升,连月之暗面接待用户的矿泉水牌子都被扒出来炒作,成就了所谓的“kimi 概念股”。
大模型行业的真正“爆点”出现在 2024 年 5 月。Deepseek 公司掀起了一场价格战,字节、阿里等大厂纷纷跟进降价,百度和讯飞更是推出了免费模型。在技术层面,如模型压缩、混合精度训练等,帮助厂商降低了训练和调用成本,从而为价格调整提供了空间。市场层面,这场价格战无疑是在模仿互联网时代的商业模式,通过降低价格来迅速扩大市场份额。同时,厂商也通过获得更多的用户数据来提升模型的训练效果。
经过这一轮价格战,国内大模型行业的生态得到了重塑。许多中小型企业被迫退出市场,剩下的大厂则通过价格优势占据了市场主导地位。
但领头大模型的技术进步并未停止,2024 年 9 月,OpenAI 发布了 GPT-o1,该模型通过强化学习和思维链技术,显著提升了推理能力,尤其是在数学问题、编程任务以及科学推理等领域。国内的 Kimi 和智谱也几乎同步发布了类似的产品,推理能力成为了下半年大模型研究的焦点。
虽然现在的大模型好用便宜,但都不如梦里的 GPT-5。2024 年年末,最受关注的大模型消息应该就是 GPT-5 难产。据《华尔街日报》12 月 20 日报道,OpenAI 的 GPT-5 项目的开发已持续超过 18 个月,该项目应在 2024 年年中完成,但现在进度严重滞后。
原因之一是训练成本太高,据估计,GPT-5 训练的算力成本可能高达 5 亿美元(约合 36.6 亿元人民币),另一方面,可供 GPT-5 训练的优质数据稀缺,OpenAI 不得不专门请一堆人从零给 GPT5 写训练数据。
希望,2025 年能看到 GPT-5 发布。
把功能放进一个软件里
大模型能力是基础,但对于用户日常使用而言,在互联网时代的熏陶下,所有人都期望一个 APP 能解决所有问题,AI时代也不例外。因此站在软件的角度,整个 2024 年最清晰的脉络,则是将更多的功能,塞进一个软件里。
AI 搜索内容为王
AI 搜索被视为大模型应用中最具潜力的方向之一,并且已经成为首个实现大规模落地的领域。生成式大模型本身是一个内容库,它的训练需要大量的数据。此外,生成式大模型最常见的交互方式是对话式这与用户的搜索需求高度契合。
用李彦宏的话来说:“生成式 AI 与搜索是天作之合。”在此背景下,AI 搜索成为了行业的焦点,特别是以 AI 搜索为核心功能的 Perplexity,其估值不断创新高,吸引了 OpenAI、谷歌等科技巨头的积极布局,掀起了年初 AI 搜索的热潮。
在 AI 搜索的初期,它更多被视为独立产品,主要功能集中在提供搜索服务上。像秘塔 AI、天工 AI 等公司,采取了“传统搜索引擎+AI”的方式。用户在输入框中输入问题,AI 则会从网页内容中读取并进行总结。
这种模式面临着高成本的挑战,尤其是对于没有搜索引擎基础的公司,他们不得不投入大量资源来建立或购买 URL 搜索库。随着百度、谷歌等传统搜索引擎纷纷加入 AI 功能,AI 搜索的创业公司逐渐失去了竞争优势。
面对这种困境,AI 搜索产品开始寻求差异化。腾讯和字节跳动通过借助各自独有的内容生态(抖音和公众号),将 AI 搜索融入自家的AI助手中,这种策略让它们能够利用现有的庞大用户基础和内容生态,避免了传统搜索引擎的激烈竞争,找到自己独特定位。
更像人的 AI 语音
使人工智能能够像人类一样进行自然对话,一直是评估其能力的关键标准,许多人梦想拥有一个类似《钢铁侠》中的贾维斯智能助手。
然而,当前的交互方式仍主要依赖文本。基于此发展起来的音频大模型,实际上是将语音转化为文字,由大模型进行理解和生成,再将生成的文字转换为语音输出。在这一过程中,不可避免地遇到一些文字交互特有的问题,例如对方言的理解困难、情绪识别的不准确,以及用户在对话中途无法有效打断等问题。
在 5 月 OpenAI 春季新品发布会上展示了 ChatGPT 的高级语音模式后,AI 语音交流能力的巨大进步引起了广泛关注。
今年八月,火山引擎用一场发布会展示了豆包支持情感理解和对话中断等功能的 AI 语音技术,到了十月,智谱也推出端到端语音模型,主打人机交流能够像日常对话一样进行。
这一突破得益于 BigTTS 技术和 RTC(实时通信)技术的支持。BigTTS 技术赋予 AI 更加丰富的情感和语调,使其语音输出更加生动自然;RTC 技术则大幅降低了中英混合对话时的延迟,提升了实时交互的流畅性。此外,通过 Seed-TTS 技术,AI 能够快速克隆样本声音的特征,实现场景中更加个性化和逼真的语音输出。
AI 视频正在变成生产力工具
在 OpenAI 于 2024 年2 月 15 日发布 AI 视频技术之前,AI 视频仍处于实验和抽象阶段,能够实现如PPT一样的背景变化就已被视为领先,代表性的 AI 软件和公司包括 Runway、Pika 等。
然而,Sora 的出现大大提升了人们对 AI 视频的期望,scaling law 被证实在视频领域也有效,于是各大公司开始投入 AI 视频,争相在时长、画面运镜、风格和画质上“卷”出更多差异。
然而,AI 视频最大的问题在于商业化,这也不被不少人认为是 Sora 迟迟不发布的原因。恰逢短剧市场火爆,并且短剧在制作上不需要天衣无缝的画面,契合一致性不强的 AI 视频,抖音快手开始尝试 AI+ 短剧的模式,借此宣传自家 AI 视频软件。抖音《三星堆:未来启示录》和快手《山海奇镜之劈波斩浪》分别在各自平台获得了 1.35 亿和 5200 万的播放量。
就在国内 AI 视频卷成一锅粥,各种免费应用频出,但并没有一款 AI 视频软件有清晰盈利模式之余,9 月一条名厨戈登·拉姆齐在厨房里“炼丹”的,由 Minimax 旗下海螺 AI 生成段子视频,风靡海外社交平台。
这种现象在海外媒体的标题中被称作“中国应用在 AI 视频领域取得早期胜利”。在 Sora 尚未正式推出之时,可灵、PixVerse、Vido 等 AI 视频软件疯狂抢占海外市场,创业公司纷纷开设海外办事处,MiniMax 旗下的 Talkie 全球月活跃用户数已达 1100 万。
AI 视频商业化的关键在于把软件卖出去,尤其是在“最佳”AI 视频 sora 还处于画饼阶段。而相较于付费意愿不强的国内市场来说,海外用户付费习惯更好,市场空间明显更大。
为了让 AI 视频更有生产力,而不是停留在整活视频。AI 视频短剧平台产品出现,进一步降低了 AI 短剧的制作门槛。这些平台将脚本创作、分镜设计、视频生成等短剧制作所需的各个步骤整合在同一个应用中,极大简化了创作流程。比如 8 月,昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels,让创作者“一键成剧”。
门槛降低的 AI Agent
前文提到的 AI 视频、AI 语音、AI 搜索等功能,都可以归纳为 AI Agent。简而言之,AI Agent 是由人工智能驱动的代理人,能够代替人类完成各类任务。2023 年 3 月,AutoGPT 框架项目的发布掀起了 AI Agent 的浪潮,随后,Baby AGI、AgentGPT 等类似产品相继涌现。
然而,由于开发门槛较高,用户数量相对有限。2024 年,AI Agent 的趋势逐渐聚焦于降低开发门槛,推动技术的普及。
在今年 4 月的 Create 大会上,百度发布 AI 开发工具 AgentBuilder、AI 原生应用开发工具 AppBuild,主打一个会说话就能开发 AI。12 月字节跳动的 AI 开发平台扣子,也频频更新低代码开发软件,如 Project IDE、UI Builder 等。
尽管许多用户通过 AI Agent 实现了“开发者”身份,可“如何让 AI 开发者赚到钱”却成为了大厂们最新的问题。
目前的 AI Agent 大部分只能针对单一任务,如编程、修图、写文章等,让 AI Agent 从单一任务转向广泛通用是发展的另一大趋势。11 月智谱 AI 发布了其重磅产品——AutoGLM,这款 AI Agent 能够真正帮助用户自动完成各类任务。在发布会上,智谱 AI 的 CEO 张鹏通过 AutoGLM 向现场人员发放了 20000 元红包,并宣称这是“历史上 AI 首次向人类发送红包”。
AI 硬件不再 All in AI
如果说“跟着 OpenAI 走”是 AGI 赛道的主线,那么在没有主线的 AI 硬件领域,整个市场就显得百花齐放,年初的 CES 展上,高喊着 AI 颠覆一切口号,从而推出的 Rabbit R1 和 AI Pin 掀起了原生 AI 硬件的浪潮,但结果第一代原生 AI 硬件全部翻车。
随后“万物+AI”开始兴起,AI 学习机,AI 耳机,AI 玩具,甚至于 AI 鼠标电脑按摩椅层出不穷,但除了价格之外,暂时还未发现什么颠覆之处。
此外,AI 硬件的概念让传统的 PC OEM 厂看到机会。原本 PC OEM 厂的迭代升级受限于 CPU+GPU 的换代,自主权较小利润被牢牢锁死,但 AI PC 的概念则完美对应“软件定义硬件”的思路。
但消费者逐渐发现 AI PC 与传统 PC 差异不大。AI PC 的 NPU 性能不足以支持运行高效的本地模型,仍然需要联网才能运行大模型。无论 AI PC 的算力如何吹嘘,实际体验中,购买一张显卡反而更为实际。
年底,AI 眼镜异军突起,Ray-Ban 与 Meta 合作推出的 AI 眼镜短时间狂卖 100 万台迅速引爆市场,成为资本最为看好、投融资最为火热的 AI 硬件赛道。
从技术上看,这款眼镜并不具备什么颠覆性的突破,但之所以热销,首先在于它是一副好眼镜。Meta 与 Ray-Ban 合作,选用了经典的 Wayfarer 款式,外观时尚大方。此外,在重量方面,Meta 并未因搭载科技功能而妥协,官方数据显示其重量仅为 48 克,与普通眼镜相仿,佩戴感极为舒适。
星际魅族副总裁卢勇认为,智能眼镜的核心要素首先是外观好看,其次是轻便。AI 功能并非刚需,用户使用眼镜的 70% 时间都在听音乐和拍照。Meta AI 眼镜的火爆,亦为所有 AI 硬件的未来发展指明了方向:在追求 AI 创新之前,首先要做好基础功能,再进一步整合 AI 技术。
AI 从工具成为游戏的一部分
AI 游戏本应归属于 AI 软件领域,但如果我们将“生成世界,模拟宇宙”作为人工智能的终极目标,那么目前离这些愿景最接近的就是AI游戏。而且,AI 所需的算力,早在之前就一直由游戏行业支持,AI 的能力最初也通过国际象棋、围棋和《Dota》等游戏得以验证。
到 2024 年,AI 不再仅仅是辅助设计的工具,而是成为了游戏本身的一部分。
或许大家还记得年初突然火爆全网的《哄哄模拟器》,这款游戏以 AI 对话为核心,其成功让 AI 对话类游戏开始涌现。游戏让玩家快乐,但每个人都有独特的爱好,游戏公司往往会准备多条支线剧情供玩家选择,但数量有限。而大模型可以做到真正的千人千面,给玩家独一无二的体验。
一些比较成熟的 AI 游戏如《海龟蘑菇汤》和《一千零一夜》。在《海龟蘑菇汤》中,玩家无论说什么内容,AI 都会将剧情引导到主线。《一千零一夜》中,AI 可以生成玩家想象中的任何武器。
比 AI 驱动更加自由、定制化的游戏,就是游戏内容全部都由AI生成。
11 月初,首款实时生成的 AI 游戏在业内引发了热潮。两家初创公司——Decart 和 Etched,宣布他们共同开发了全球首个实时、可玩且可交互的世界模型——Oasis。Oasis 通过数百万小时的游戏视频训练,能够根据用户的键盘输入即时生成开放世界游戏。
12 月,Google DeepMind 发布了大型基础世界模型——Genie 2。用户只需提供一张图片,Genie 2 便能生成一个与之相对应的虚拟世界,并允许用户通过鼠标和键盘在其中进行互动。
虽然谷歌的技术无疑强大,但 2024 年最火的 AI 游戏,毫无疑问是《沙威玛传奇》——一款真正的“3A 大作”——融合了 AI 作图、AI 配音、AI 作曲等技术。
这款游戏在 9 月底突然爆火,迅速超越《王者荣耀》等热门游戏,稳居 iOS 免费榜榜首,并连续霸榜至少 16 天。游戏的内容很简单,玩家扮演沙威玛饭店老板,需要在游戏中切肉、炸薯条、加酱、卷饼等,满足不同食客的需求。
与传统 3A 游戏相比,《沙威玛传奇》无论是在画质还是音乐方面,都显得相对简陋,但它的魅力在于好玩。就像 AI 硬件一样,游戏的成功也提醒着开发者,AI 游戏本质上仍然是游戏,最重要的是好玩。
从基础大模型到接近 AGI 的突破,从 AI 抽象视频到 AI 生成短剧的爆火,从更加“逼真”的数字人到 AI 游戏的新玩法……所有这些变化,曾经需要数年的积累,而现在不过发生在短短一年之内。技术进步的速度,正在不断刷新我们的认知。
作为继互联网、云计算、智能手机之后的又一次产业革命,每一个中国人都无比期望在人工智能这轮浪潮中拔得头筹,而不是再一次被冠上“追赶者”的名号。
诚然,谈起 AI 我们总会说国内环境不好、融资情绪差、技术存在差距、商业化不尽人意零零总总,可回过头来看这一轮 AGI 革命,曾在电子产业领先的日韩杳无音讯、欧洲只余 Mistral 一家独苗,还是从硅谷返乡创业。
反观中国,论 AI 人才梯队的规模和质量,中国仅次于美国,在 ChatGPT 问世的前一年,中国 AI 论文数量已经是美国的2倍。
凯文·凯利在 2024 年上海外滩大会上曾问过一个问题:“想象 100 年后的世界,你想生活在什么样的环境中?”但面对这飞速变化的时代,1 年后的未来都让人无法预测。
扫码关注公众号
获取更多技术资讯