HelloKitty • 2024-12-31 16:45
181
本文由 AI鲸选社 撰写/授权提供,转载请注明原出处。
文章来源于:AI鲸选社
作者:林书
编辑:杨晓鹤
2024 年的日历渐渐翻至最后一页,这一年中,我们见证了 AI 行业诸多令人兴奋,却又有些坎坷的进步。
从跳票一年终亮相的 Sora,到 o3 掀开推理侧大发展的序幕,以及 DeepSeek V3 带来的惊喜与争议,这一切的繁荣,似乎让人觉得 AGI 似乎就在不远的前方。
然而,另一方面,大模型商业化、落地的困境,却仍旧没有得到解决,众人期待中的 SuperApp,也还是没有出现。
与此同时,近乎耗尽的训练数据,以及 Scaling Law 即将“撞墙”的传闻,也不由让人对 AI 的远大前景产生了一丝隐忧。
今天,在 2024 行将结束之际,就让我们一一盘点今年 AI 行业的几大主要进展及趋势,并通过 5 个核心问题,探寻 2025 年大模型走向何方?
要不要做预训练, Scaling Law 是否还有效?
当有人质疑本次的 AI 革命,是否会重蹈前两次革命失败的覆辙时,Scaling Law 总能让人拾起信心。
因为它让当前的 AI,找到了一种基于“数据-规模-能力”的正向循环系统。这也是 AI 实现持续进化的根本所在。
然而,这个让奇迹不断涌现的“黄金定律”,今年似乎不再那么灵了。
今年 11 月,The Information 的一份独家爆料声称,GPT 系列模型改进缓慢,下一代旗舰模型 Orion 并不像前代实现巨大的飞跃。
这篇文章直击 OpenAI 痛点,提出 Scaling Law 逐渐放缓,原因之一是高质量文本数据越来越少。
此文一出,AI 圈立刻炸了锅,众人对 LLM 能否通向 AGI 的质疑声此起彼伏。
然而,没过多久,OpenAI 研究员 Adam 称,Scaling 刚刚找到了另一套「齿轮」!o1 系列模型 scaling 的两个重要维度——训练时间和测试(推理)时间。
一时间,Scaling 的定义似乎悄然发生了改变,在这个新的维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。
于是,以 o1 为代表的,一批试着以“深度推理”改变 Scaling 范式的大模型纷纷涌现了出来。
例如,DeepSeek (深度求索)推出了 R1-Lite ;Kimi(月之暗面)推出了主打数学能力的推理能力强化模型 k0-math;阿里先后推出 Marco-o1、QwQ 两款推理模型;昆仑万维推出了 Skywork o1 。
在具备深度推理能力后,大模型的自我反思、学习能力提升明显。
在 OpenAI 和智谱给出的“通往 AGI 五阶段”的定义中,二者均将多模态和大语言模型能力归在 L1 阶段,也就是最为基础的能力配备。而 o1 的出现,则标志着大模型能力突破到了 L2 阶段。
国产选手里,确实有不少深度推理类大模型,在推理链上做了不少功夫,例如 R1-Lite 这类大模型,在处理复杂问题时,思路展示得特别详细清晰。
差距最明显的地方,说白了就是"深度"和"连贯性"。
拿数学题来说,DeepSeek-R1-Lite、K0-math 这类模型,面对长链路推理时,模型思维链有时会失败,会承认超出能力范围,但也会陷入死循环状态。相较之下,o1 却能一口气推导出 8-10 个步骤,而且每步都严丝合缝。
12 天春晚发布的 o3,进化幅度更是夸张。从 0% 到 o1 的 5%,整整花了五年的时间;从 o1 的 5% 到 o3 的 87.5%,只花了半年。
GPT 5 迟迟不能出现的情况下,大模型在推理侧疯狂生长。
Sora 不如预期,
现实还能存在多久?
如果要为 2024 年的大模型,找一个最耀眼的类别,那这样的桂冠,或许非视频生成类大模型莫属。
在 2024 年 2 月初,OpenAI 推出的文生视频模型 Sora,以惊艳的表现震撼了全球科技圈。凭借通过文字生成高清、流畅视频的能力,AI 让人们看到了“一键生成万千世界”的可能。
当时业内甚至有人认为,其对现实物理规律的模拟能力,是打造“世界模型”,并让人类最终通往 AGI 的途径之一。
“Sora 类”模型突破的背后,则是 DiT(Diffusion Transformer)架构的创新。
DiT 架构赋予 Sora 等视频生成模型前所未有的时间—空间建模能力,通过将扩散模型的去噪机制与 Transformer 的动态特性结合,提升了视频生成的连贯性和灵活性,使其能够高效生成长时序、高分辨率且视觉一致的视频内容。
从字节跳动的“即梦”到快手的“可灵”,再到智谱的“清影”,以及后来 MinMax 的海螺 AI,都代表了国产文生视频技术在这一年迅速发展。
在众人对 Sora 望眼欲穿的日子里,可灵凭借 2 分钟、1080P、每秒 30 帧的高规格视频生成能力,满足了人们对文生视频 AI 最大的渴望。
然而,兴奋之余,务实的人们却发现,大模型商业化的困境,却没有随着文生视频类 AI 的“奇迹”迎刃而解。
虽然在 2024 年,《山海奇镜》等 AI 短剧的出现,似乎为这一赛道增添了几分光彩。
然而,这种由少数专业团队支撑起来的“奇观”,影响仍局限在业内的小范围。
高昂的生成成本、不稳定的输出质量,以及有限的应用场景,共同构成了阻碍文生视频 AI 大规模商业化的重重屏障。
据业内调研显示,目前5秒左右的高质量 AI 视频生成成本约为 1-3 元,但由于 AI 生成的不稳定性,创作者往需要反复生成,才能得到满意的结果。例如《白骨精前传》的 AI 短剧作者 Danny,就花了五六千块。
这一成本,仍然令普通的 C 端用户望而却步。
同时,一种 AI 版的“恐怖谷”效应,也成了除了直接的技术外,阻碍 AI 视频被大众接受的“工艺”问题。
好在 2024 年,尚显稚嫩的视频 AI,仍在蹒跚学步,但 12 月份 Sora 的正式发布,以及可灵 1.6 和 Google Veo 2 给这一片惆怅的灰色中,增加了一抹新的色彩。
在 12 月的“12 Days of OpenAI”活动期间,OpenAI 终于宣布推出“鸽”了 10 个月之久的 Sora 模型,相比于早期版本,Sora Turbo 的生成效率大幅提升。
Sora 在模型端的表现并不令人惊喜,甚至比国产的没有表现更好。但其对视频的可编辑性,对 Sora 类工具走向实际应用的产品化,迈出了重要一步。
这样的收尾,总算是给不太圆满的视频 AI,在年末画上了一个振奋人心的句号。
AI coding 兴起,
程序员会失业吗?
回望 2024 年 AI 编程领域的变化,一个最瞩目的问题是:AI 真的会取代程序员吗?
2024 年,随着 AI编程领域开始从 Copilot 向 Agent 转型,对专业开发者而言,AI 将逐步承担代码测试、审查和迁移等重复性工作,提高开发效率。
而在众多涌现的 AI 编程工具中,Cursor 则像一匹黑马,凭借 AI 驱动的智能代码助手和用户友好的工具界面迅速蹿红,甚至引发了行业内对 AI 代理未来可能性的讨论。
这个 4 名本科生打造的编程“神器”Cursor,年化收入已经达到了 6500 万美元。
要说 Cursor 为什么这么火,其实答案很简单:它抓住了开发者真正需要的东西,同时又做得特别聪明、特别到位。
和传统的代码编辑器比起来,它直接就把 AI 变成了开发过程的核心助手。你不用再花时间到处找插件、改配置,从代码补全到自动生成逻辑,全都内置搞定。
同样地,OpenAI 的 Canvas 也是今年的重头戏之一。Canvas 基于 GPT-4o,为用户提供了一个专门的协作平台。其最大的亮点是透明化了代码修改的过程,程序员不仅能看到改动的细节,还能通过自然语言指令快速优化代码结构。
而谷歌的 Jules 则瞄准了更深层次的编程应用。这款工具不仅结合了 Google 的 Gemini 2.0 模型和深度代码分析能力,自动生成解决方案,甚至可以与 GitHub 等平台无缝集成,完成从需求分析到代码实现的全流程。
要说今年的 AI 编程,为何取得了如此大的进展,那恐怕要归功于 ReAct(Reasoning and Acting)框架的突破。
这是让 AI 编程助手实现从"辅助"到"自主"转变的关键技术。它通过将推理(Reasoning)和行动(Acting)紧密结合,建立了一套"思考-行动-反馈"的循环机制,让 AI 首次具备了真正的问题解决能力,而不是简单的模式匹配和代码生成。
在这样的突破下,有人调侃,有了 AI,将来写代码就像聊天一样简单,用自然语言说出需求,AI 就能给你一套解决方案。AI 似乎正在把软件开发这个高大上的领域,变得像做 PPT 一样简单。
这样的进步,让人产生了一种“将来程序员都要失业了”的错觉,确实,AI 现在帮我们搞定了很多从前费时费力的活儿,但在专业的业内大佬看来,AI Coding 虽然功能强大,但偶尔生成的逻辑会让人觉得“AI 还在学走路”。
就连谷歌 CEO 劈柴也承认:”所有 AI 代码都必须经过工程师的“人工”审核和验收”。
尽管如此,今年的 AI Coding,确实打开了想象的空间,让软件开放从“纯人脑的作品”开始逐渐变成“人与机器协作的产物”。
真 Siri 来临,
能开启智能硬件第二春?
2024 年的语音 AI 发展,用一种革命性的方式,重新定义了人机交互范式。
回想《Her》里那个温暖有感情的虚拟助手 Samantha,不少人曾以为这是遥不可及的幻想。
但今年,OpenAI 的 GPT-4o、科大讯飞的星火模型、字节跳动的豆包,还有智谱清言等,都在用各自的技术证明,这种科幻的想象,现在真的照进了现实。
与传统的 TTS(文本到语音转换)技术相比,像 GPT-4o 这样的新一代端到端语音大模型的最大亮点,就在于它能“懂场合”、“通人性”。
简单来说,传统的 TTS 技术多半是以静态规则为主,比如为特定句子设计语调模板,但 GPT-4o 这样端到端语音模型,不仅能通话中实时做到感知上下文,且能灵活选择声音的节奏、语气,甚至能被打断和停顿。
有了这种更“人性”的特点后,各个 AI 企业各显高招,从总体上看,实时语音 AI 的赛道,在 2024 年,大致呈现出了“多语言”、“个性化”的特点。
例如科大讯飞的星火大模型 4.0 Turbo,不仅支持 74 种语言和方言,还引入了“超拟人”特性,通过个性化定制功能,让用户可以和 AI 助手形成更贴近现实的交流方式。
虽然在 2024 年,语音 AI 已经让人觉得“科幻照进现实”,但这个“现实”还有点“昂贵”。
从行业角度看,这波实时语音AI的竞争,比拼的其实是"算力经济学"。
为了应对实时语音的高昂成本,聪明的公司开始搞"算力分层"。简单对话用轻量级模型,复杂问题才上重型火力。
这也是为什么,在视频通话这种场景下,如果涉及到多模态交互,尤其是需要结合视觉线索或复杂上下文理解的时候(例如长文章或代码),语音AI的表现也常常不如文本模式下的大语言模型——回复的深度和质量会明显逊色。
总体来说,当前的语音 AI,虽然给了行业惊鸿一瞥的惊喜,但要真正成为一个得力的智能助手,它需要的不只是更流利的语音,而是多项功能的整合。
AI Agent,
噱头还是即将落地?
2024 年的 AI Agent,不再仅仅是大模型的附属品,而是开始以独立角色,重新定义智能交互的边界。
像智谱的 AutoGLM、Anthropic 的 Claude Computer Use,荣耀的手机 AI 助手,以及谷歌刚刚在年末发布的浏览器 Agent 助手 Project Mariner 等,正在逐渐将科幻里的“万能助手”变成现实。
从总体上看,今年的 AI Agent,大致呈现出了两个方面的特征:
一是跨 APP 的 Agent 能力更强
以前一直有句话叫 App 墙,不同 APP 直接难以逾越。
现在这种“执行层”的变革,让 AI 摆脱了传统 APP 间的界限,使未来一种统领“千百 APP”的超级应用成为了可能;
以谷歌的 Project Mariner 为例,这款浏览器 Agent 可以理解和操作网页上的所有元素,包括文本、代码、图片和表单。它不只是单纯浏览,而是能够完成从信息搜索到购买、表单填写等一系列操作。
而 Anthropic 的 Claude Computer Use,则专注于电脑端操作,能用鼠标和键盘模拟用户行为,完成文件编辑和多程序协作。二者都展示了 Agent 在处理复杂的多模态任务时,进行多种工具调用的适配能力。
二就是 CUI 时代渐渐来临
一句话点 200 杯咖啡,一句话发 2 万的红包。
像智谱的 AutoGLM,以及荣耀的手机 AI 助手,可以通过简单的语音指令完成手机端和跨 APP 的复杂任务,比如订咖啡、对比航班价格甚至建群发红包。
如今,正从 GUI(图形用户界面)向 CUI(对话式用户界面)时代转变。
苹果在对 GUI 的巨大贡献,引发了一场交互革命,如今 AI 公司正在引发新的交互颠覆性创新。
此外,2024 年的 AI Agent 技术,带来的另一个惊喜,是 AI 在游戏行业的突破。
尤其是网易伏羲在《永劫无间》手游和腾讯的《暗区突围》的 AI 队友,在结合了多模态技术后,已经不仅仅是传统意义上的“NPC”,而是一个能听懂语音指令、实时调整策略、甚至和玩家情感互动的“智能队友”。
这些突破性的应用,让 AI 不再只是游戏中的“工具”,而是玩家的真正伙伴。
从趋势来看,AI Agent 正在向多模态能力和更深层次的智能化发展。
结合视觉、语音、文本等多模态信息,它们能够更全面地理解用户需求,并从一个“对话工具”成长为“得力助手”,逐渐正带领我们进入一个更加无缝和高效的智能时代。
结语
在这个充满变数与惊喜的 2024 年,AI 就像一个正在成长的孩子——有时笨拙,有时惊艳,但始终充满无限可能。
尽管道路上有数据枯竭的忧虑,有商业化的阵痛,有技术的不完美。大模型支撑着 AI 原生应用高速发展,2025 年被誉为 AI 发展元年,未来会越来越精彩。
扫码关注公众号
获取更多技术资讯