2024,智谱如何更快?

HelloKitty 2024-01-18 15:38

扫一扫 在手机阅读、分享本文

1509

本文由 雷峰网 撰写/授权提供,转载请注明原出处。

文章来源于:雷峰网

作者:张进

编辑:陈彩娴

要问当前 AI 大型语言模型界万众期待的一件事,以及各通用大模型厂商都在暗自铆足劲干的一件事,一定是追赶 GPT-4。

回顾过去的 2023 年,国内整个 AI 行业度过了繁忙而又充满激情的一年。上半年经历了融资大战、抢人组团队,下半年迎来大模型井喷式爆发,进入模型汹涌期和商业化落地探索初期。

据公开资料显示,截至去年 10 月份国内已经发布了238个大模型,意味着中国过去每天都有一个新的大模型发布,我们会发现大家在介绍自家大模型时,纷纷提到模型能力“接近 GPT-4”,有胆大者甚至宣称“赶超 GPT-4”。

一时间,仿佛中国大模型已经领先国际先进水平,给不懂大模型技术、关注中国 AI 发展的投资者、用户带来许多不切实际的幻想与信心。

因为事实情况远非如此。去年 11 月时,元象 XVERSE 科技创始人、腾讯公司前副总裁姚星曾告诉雷峰网,大家都说接近 GPT-4,显然不符合实际情况,很多都是刷榜刷出来的,意义不大。

“刷榜是我们的一个陋习”,这导致的结果就是大家对中国大模型的能力没有清晰的认知,实际上大家离 GPT-4 还差得远。

虽然,随着 OpenAI 大模型论文发布、Meta 开源强势入局,大模型的神秘面纱被一一揭下,我们与国外大模型的差距在逐步缩短,但别人模型的天花板 GPT-4,我们依然还远未触达。

这依然是一个有很高门槛的事情,训练模型需要大量钱、需要写过模型训练代码的人、需要坚定的技术路线和公司战略层面坚持不懈的投入,不是谁喊上一嗓子,中国大模型就能跟 GPT-4 同台竞技。

所以,在刷榜成习的时代,我们应该把注意力、资源倾斜给那些真正为中国大模型事业,不断努力付出的团队和人身上,而不需要鱼目混珠之下的“盲目自吹自擂”。

追赶 GPT-4 已然是国产大模型当下最迫切的任务,而对于通用大模型厂商,谁能率先训练出真正比肩 GPT-4 的大模型,谁就能“先入咸阳”,在商业化、生态上迎来进阶。

对于谁能率先突破 GPT-4 门槛的猜测、讨论和押注,在过去的一年中激烈地进行着,终于,直到今天智谱 AI 发布了新一代基座大模型 GLM-4,模型性能相比上一代全面提升 60%,各项指标逼近 GPT-4,让我们看到“国产 GPT-4”真的来了。

意料之中的结果,但没想到他们速度如此快。

最强大模型 GPT-4,一直无人赶超

2023 年春节后,辞旧迎新,一波关注 AI 的投资人偶然间使用了 ChatGPT(GPT-3.5),被震惊,一传十、十传百,在投资圈带起了一波 ChatGPT 热潮,随着时间不断发酵,遂带动了整个中文互联网“膜拜”ChatGPT 的热潮。

当人们尚未从 ChatGPT 带来的震惊中冷静下来,一个月后,OpenAI 又推出了新品 GPT-4,一个更强大的大模型,再次点燃了人们对大模型的想象力。

1.jpg

它强大到什么程度呢?一张网站的手绘草图,GPT-4 能直接生成最终设计的网页代码;GRE 考试接近满分;模拟律师考试中 GPT-4 击败了 90% 的人类,取得了前 10% 的好成绩,相比之下 GPT-3.5 是倒数 10%。

GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。其中,GPT-4 最大的突破是能够处理图像,并能准确理解图片的含义,给出解答。

种种惊人的表现导致 GPT-4 一问世,便成为最强的大模型,成为全球科技公司共同追逐的目标。

回归自身,在这波大模型竞争中,一致认为中国的突破口和优势在于我们应用场景丰富,拥有超大规模市场,是最能把大模型应用起来的。

那我们直接用开源大模型不就行了吗,为什么一定要耗费巨大精力去追逐 GPT-4 呢?

首先,正如智谱 CEO 张鹏所说,一个好用的基座大模型,归根结底要看基座大模型的能力够不够用。当前国产大模型真要落地到实际场景中,要给企业带来业务价值,模型的通用能力还需要很大提升。

而放眼当前最先进的模型 GPT-4,它虽然不断在进化出新的类人能力,但目前依然连最基本的“模型幻觉”问题都没能彻底攻克,AGI 短期内依然是一场人类自身的“颅内狂欢”。

“真正落实到 B 端,光靠 chat 类产品好像也不够。”而张鹏认为,目前大模式商业化落地上遇到的挑战,本质上还是模型能力的突破。

既然优等生都还有上升空间,我们又有什么资格不进步,何况国产大模型的模型能力尚且还不足以支撑诸多业务场景的商业化落地,所以目前 GPT-4 依然是值得奋力追逐的目标。

其次,站在国家层面,技术自主可控是大势所趋,仰望最远大的技术理想依然是我们必须要达到的彼岸。

“现在主要看谁能赶上或者超过GPT-4,很有可能大部分厂商都过不去。”某深入了解大模型生态的业内人士表示,他还特别指出,Meta 的 Llama2 发布后,模型能力一度接近 GPT-3.5,但至今 Meta 一直没有发布新进展,以此看来大模型技术门槛依然很高,这将对国内很多团队都是一个考验。

而国内很多厂商都是基于 Llama 开源来训练的模型。

GLM-4,性能直逼 GPT-4

今天,1 月 16 日,智谱 AI(以下简称“智谱”)在北京举办了 2024 智谱 AI 技术开放日,发布了新一代基座大模型 GLM-4。

据智谱透露,GLM-4 在基础能力上实现大幅提升,性能相比上一代 GLM-3 全面提升 60%,而根据智谱提供的测评数据显示,GLM-4 性能逼近 GPT-4。

首先是基础能力上,MMLU 81.5 达到 GPT-4 94% 水平,GSM8K 87.6 达到 GPT-4 95% 水平,MATH 47.9 达到GPT-4 91%水平,BBH 82.25 达到 GPT-4 99% 水平,HellaSwag 85.4 达到 GPT-4  90% 水平,HumanEval 72 达到 GPT-4 100% 水平。

2.png

图源智谱开放日

指令跟随能力上,和 GPT-4 相比,IFEval 在 Prompt 提示词跟随(中文)方面达到 88% 水平;在指令跟随(中文)方面,达到 90% 水平。大大超过 GPT-3.5。

对齐能力上,基于 AlignBench 数据集,GLM-4 超过了 GPT-4 在 6 月 13 日发布的版本,逼近 GPT-4 最新(11 月 6 日版本)效果,在专业能力、中文理解、角色扮演方面超过 GPT-4 精度。在中文推理方面的能力还有待进一步提升。

令人讶异的是,智谱本次发布,展示了 GLM-4 过去一年里努力追赶 GPT-4 的成绩,在多个模型测评中基础能力都达到 GPT-4 的 90% 水平,取得的这个成绩已然非常难得,但他们并没有干脆称“赶超 GPT-4”,而是秉持着实事求是的低调态度,展示了 GLM-4 性能只是“逼近”GPT-4,与 GPT-4 仍然有差距,甚至还特地指出了自己当前的不足之处,需要“更进一步提升”。

与当下浮夸风盛行不同,智谱给人的感觉一直是那个“低调的学霸”。

除了性能上的提升,GLM-4 支持带来 128K 上下文窗口长度,单次提示词可处理文本达到 300 页。在 needle test 大海捞针测试中,128K 文本长度内 GLM-4 模型均可做到几乎百分之百精度召回。

基于 GLM 模型拥有的强大的 Agent 能力,智谱推出了GLM-4-All Tools,能根据用户意图,自动理解、规划复杂指令,自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。

多模态已经成为 AI 发展的重要方向和路径,可以看到头部大模型厂商都在往多模态发展,例如 Meta 的 SAM、OpenAI 的 GPT-4V 到谷歌 Gemini,再到今天的 CogView3,智谱一直在“对齐”世界先进水平。

模态指表达或感知事物的方式,每一种信息的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态,数据源丰富且成本低廉,相比语言模态更直观更易于理解。

现实应用中,文本、图像、声音是经常穿插在一起交互的,并不都是纯文本。在一些复杂的应用场景中,纯文本的交互方式会受到文本表达能力的限制,使得复杂的概念或需求难以传达,相比之下,多模态模型中的图像交互方式门槛就更低,更为直观。

一位证券分析师认为,多模态技术的一小步将带来产业应用落地的一大步。多模态是大语言模型走向千行百业乃至通用人工智能重要的里程碑。

所以,AI 要渗透到各行各业,大模型向多模态发展是必然趋势。

而此时,智谱在大模型产业落地上,已经奔跑了十个多月。本次,GLM-4 的多模态能力也实现了明显提升,文生图和多模态理解都得到增强,CogView3 效果明显超过开源最佳的 Stable Diffusion XL,逼近最新 OpenAI 发布的 DALLE3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3 的效果都达到 DALLE3 90% 以上水平。

智谱 AI CEO 张鹏在技术开放日上表示:GLM-4 的推出标志着国产大模型水平看齐世界先进水平,为我们全面开辟国产大模型产业新局面奠定了根本性基础。

GLM-4 的发布,将会成为国产大模型发展的一个分水岭,给大模型商业化、产业落地带来更多想象空间。

GLM-4 让大模型进入商业化加速时代

在去年 ChatGPT 刚刚点燃中文互联网时,智谱就决定开始做商业化。据智谱透露,从今年 3 ⽉以来,见过的客⼾超过 2000 家,与其中 1000 多家形成合作,与超过 200 家进行了深度共创。

站在整个大模型前进的历程中,我们可以看到,智谱过去一年始终围绕着商业化紧锣密鼓地展开,相比较于其他头部大模型创业公司 10 月以后才开始喊商业化,智谱的商业化差不多领先行业半年。

而商业化也一度面临着挑战。

CEO 张鹏在去年 10 月底时曾坦诚地告诉雷峰网,智谱的大模型面临“叫好不叫座”的挑战,即很多人认可,但提到付费购买,就会打退堂鼓。

一方面是大家对大模型的认知不够,另一方面的原因很现实,有 GPT-4 在前面摆着,用户对大模型即便不甚了解,但都知道 GPT-4,就会问智谱的模型离 GPT-4 还有多远。

对于商业化,当时张鹏认为,如果某一天做到 GPT-4 的水平,当前面临的很多问题都会迎刃而解,甚至连商业模式都不用考虑,只提供 API 就行。

没想到仅仅只过去了两个多月,GLM-4 便能比肩 GPT-4,这对智谱整体发展和商业化都将是重大利好。

而这次技术开放日上,智谱还推出了一系列推动 GLM 模型生态加速构建的重要措施。其中最重要的就是GLMs个性化智能体。

基于GLM-4 模型强大能力,任何用户用简单的提示词指令就能创建属于自己的 GLM 个性化智能体。GLM 模型智能体和智能体中心已经于技术开放日当天上线。

除此,智谱 AI 还针对商业客户、开源社区和大模型小微企业等合作伙伴推出多项针对性措施。

比如价格,GLM-4 升级后,API 调用价格维持 0.1 元/千 tokens 不变,这已经是行业内较低水平。另外,智谱 AI 还将成立总额 1000 万元人民币的大模型开源基金,以及对面向全球大模型创业者的智谱 AI“Z 计划”进行升级,联合生态伙伴发起总额 10 亿人民币的大模型创业基金用于支持大模型原始创新。

以上推动 GLM 模型生态的多种措施,为构建智谱的生态圈,其本质也是为智谱的商业化落地添砖加瓦。

根据智谱 AI 首席运营官张帆所说,在过去的 9 个月里,他带领着智谱走过了从最初“卖模型”到一整套商业化体系的搭建。

智谱的商业化体系呈一个金字塔,最基层是开源层,开源拥有千万下载,非常大的群体,张帆在跟客户聊的时候发现,很多技术人员入门都是用 ChatGLM;上一层是 API 层,核心的日常调用 API 的客户;再往上一层是云端私有化,面向中型企业,中型企业不但有使用模型的需求,它也希望能够把业务中的数据资产转化为自己的竞争壁垒;最高层就是本地私有化,很多企业对安全性要求极高,或者很多企业希望把模型能力转化为自己的,希望自己能够驾驭模型,这一类量会更少一些。

对于智谱来说,每一层都有自己的生态位,商业化目标是希望下层用户不断往上层移动,逐步丰盈智谱的商业化。

这非常符合智谱的发展策略:始终坚持技术与商业化两条腿走路。

GLM-4 的发布,将会给整个大模型行业带来震动,促使大模型转身进入商业化加速时代。

后记

2023 年 3 月 14 日,GPT-4 发布的同一天,智谱 AI 跟着便发布了基于千亿基座模型的对话模型 ChatGLM,并开源了中英双语对话模型 ChatGLM-6B,可支持在单张消费级显卡上进行推理使用。

智谱 AI 对标 OpenAI 的野心就此凸显。而今天 GLM-4 的成功发布,是智谱过去一年里践行向世界最先进水平看齐的谦逊,也是智谱的决心与信心的实现。

智谱对标 OpenAI 的目标正在一步步实现。

而今天的 GLM-4 性能直逼 GPT-4,给国产大模型追赶甚至超越 GPT-5、GPT-6……在实现 AGI 这条道路上赋予了信心与坚持。

就像 Sam Altman 说的,“永远要更快”,大模型时代把一切都加速了。在 2024 年的第一个月智谱 AI 率先出击,可谓给 2024 年的激烈竞争定下了基调,不禁让人更加期待未来人工智能行业还会带给我们怎样的惊喜。

微信图片_20231218102300.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章