成本降低 50%,智谱 GLM 背刺 GPT

HelloKitty 2023-10-30 15:20

扫一扫 在手机阅读、分享本文

1701

本文由 AI科技评论 撰写/授权提供,转载请注明原出处。

文章来源于:AI科技评论

作者:郭思

编辑:陈彩娴

大模型之战进入了下半场,在中国企业争先恐后抢发“自研”的类 ChatGPT 之后,竞争不再是从 0 到 1 的有与无之争。而变成落于实处,各家大模型肉搏,能否产生出真正的效用。

不用深度参与 AI 调研,大众也可以发现自然语言处理(NLP)是大模型研发最活跃的领域。在这样一个早就遍布百度、阿里以及各个研究机构厮杀气息的领域,长文本的竞争成为了一个可突破重点。

尽管有前驱者早已发展。普遍认知上国内对于大模型的关注始于 ChatGPT 是不争事实,近期 OpenAI 发布 GPT-4V,使人们将目光聚焦在了多模态迁移和融合能力之上。如何对齐和超越成为一大挑战。

与此同时,在与 OpenAI 的竞争中,7 月 19 日,Meta 宣布 Llama 2 开源,并且可直接商用,AI 大模型圈一夜之间变了天,同时也宣告着大模型加速商业化时代的到来。

这场对于通用人工智能(AGI)的角逐,实际上是一场无尽的长跑、而非百米冲刺。在这样一场长跑之中,长文本与多模态的突破该如何发力,开源江湖之中,国产大模型如何一争高下?落于商业场景,哪种模式才是合适的打法?

2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品,主要的亮点是全面瞄向 GPT-4V 的技术升级、模型全自研,并国产芯片适配、更开放的开源生态。

自研、国产、开源,这几个关键词加在一起形成了智谱 AI 的大致方向,也回答了部分我们提出的疑问。

中国大模型发展元年

故事,从 2020 年开始。

2020 年,其实并不是普遍认知上的大模型发展元年。但现在回望,事实远非如此。2020 年恰是中国大模型过程中值得仔细玩味的发展元年——今日世界的泾渭分野,在彼时已伏脉千里。

这一年发生了两件典型事件:

2020 年 6 月,OpenAI 突然发布了一个超乎所有人想象的研究成果——参数规模高达 1750 亿的 GPT-3。同是预训练语言模型,但 GPT-3 的参数量是 BERT 的 500 倍,不仅能做语言生成,而且在各项语言理解类的任务上也超过了 BERT。

同年 10 月,中国北京,集聚了中国顶尖科技人才的智源研究院率先发起大模型项目,在此之后,发布的“悟道 1.0”是当时中国首个超大模型,再到“悟道 2.0”发布,其成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI 所发布的 GPT-3 的 10 倍,受到了国内外的瞩目。

中美大模型技术分割之战,在这个时间节点有了新的发展方向。

成立于 2019 年的智谱 AI 的故事也与这两件事情息息相关,智谱 AI 多数团队成员,曾参与清华大学与智源研究院的合作项目"悟道"。

至于 2020 年,GPT-3 的到来,带给智谱 AI 的与其说是影响,不如说是焦虑。

彼时,智谱 CE0 张鹏既震惊于 GPT-3 的涌现能力,也在思考要不要 All  in 超大规模参数大模型。权衡过后,智谱 AI 决定把 OpenAI 作为自己的对标对象,投入到超大规模预训练模型的研发当中。

一个稠密的、有千亿参数规模的超级大模型,或许会带来人工智能的突破。这是张鹏坚定的信念。

但在技术路线上,智谱 AI 想做出的是与 OpenAI 不一样的事情。

智谱 AI 环顾四周,当时主要存在 BERT、GPT 和 T5 几种大模型预训练框架。

GPT,本质上是一个从左到右的语言模型,常用于无条件生成任务(unconditional generation);BERT 则是一个自编码模型,擅长自然语言理解任务(NLU,natural language understanding tasks),常被用来生成句子的上下文表示;T5(全称为Transfer Text-to-Text Transformer )则是 encoder-decoder ,是一个完整的 Transformer 结构,包含一个编码器和一个解码器,常用于有条件的生成任务 (conditional generation)。

同样一份英文试卷丢给这三个模型预训练框架,GPT 能通过预测下一个词来做题,通过大量写作练习来准备考试,BERT 则擅长通过词句之间关系来做题,通过理解去考试,其复习资料主要源于课本和维基百科,T5 则擅长将题目形式化,比如将每个文本处理问题都看成“Text-to-Text”问题 ,所有题都在一个框架下解答,具有较为强大的迁移能力。

1.png

然而,没有一个预训练框架对包括自然语言理解(NLU)、无条件生成和有条件生成在内的三个主要类别的所有任务都表现最好。

GLM 的思想就是想要结合以上几种模型的优点,又不增加太多的参数量。

2021 年 9 月,在团队的共同努力下,智谱 AI 开始了 GLM 预训练架构的研发,并训练了百亿参数模型 GLM-10B。

技术先进,不能让商业化路途十分坦畅。

据熟悉智谱 AI 的行业人士告诉 AI 科技评论,其实智谱 AI 在 2021 年开始融资的时候,几乎没人看得懂 GLM 框架,也没什么人想投,智谱 AI 很无奈,只能开源。

如果说 GLM-10B 的开源是迫于无奈之举,那在 GLM-130B 正式诞生之后,资本市场对智谱的追捧则充分说明了整个行业对大模型的认识在逐渐成熟。

2022 年 8 月,智谱 AI 推出 GLM-130B。在概念上的独特性和工程上的努力使 GLM-130B 在广泛的基准(总共 112 个任务)上表现出超过 GPT-3 水平的性能。

值得一提的是,在诞生之初,GLM-130B 就在华为昇腾芯片进行了适配训练。

很快,智谱 AI 身后聚集了一批知名 VC。就在 GLM-130B 发布的第二个月,智谱 AI 拿到了由君联资本和启明创投联合领投的 1 亿元 B 轮融资。

在此之后,智谱 AI 的估值便一路高飞猛进。从 2020 年底的估值约 20 亿元人民币,到如今的 140 亿元,智谱 AI 已经成为中国估值最高的大模型创业公司。

2.png

大模型「上甘岭之战」

钢铁与钢铁意志的交锋,是人们对于二战中上甘岭一战的描述,这是历史上一场有名的硬战。

在经历了 2022 年 ChatGPT 引爆的生成式 AI 热潮以及 2023 年百度文心、阿里通义、华为盘古、讯飞星火、商汤日日新等 30 余个大模型的悉数登场之后,大模型的竞争炮火密度也到达了上甘岭之战的程度。

张鹏在多个场合引用了红杉中国关于生成式 AI 的观点,市场的性质正在演变。炒作和闪光正在让位于真实的价值和整体产品体验。生成式 AI 的下半场竞争关键是原生应用。

让大模型有应用价值,技术的突破点还可以往什么方向发展?长文本和多模态的融合似乎是这场战争中的长枪和大炮。

在 ChatGLM 3 系列模型发布后,智谱成为了目前国内唯一一个对标 OpenAI 全模型产品线的公司:

3.png

提及 OpenAI 全模型产品线,我们不得不提到 OpenAI 近期发布的 GPT-4V,在视觉理解、描述、推理等诸多方面表现出了类似人类水平的能力。

据张鹏介绍,瞄准 GPT-4V,ChatGLM3 实现了若干全新功能的迭代升级,包括:多模态理解能力的 CogVLM- 看图识语义,在 10 余个国际标准图文评测数据集上取得 SOTA,CogVLM 也被誉为“十四边形战士”。

在现场,我们也看到了 ChatGLM3 的看图识语义能力,丢给他一张照片,他能立马识别照片是在哪里拍摄的。

ChatGLM3 代码增强模块 Code Interpreter 则可以理解为让模型具备写代码的能力,能根据用户需求生成代码并执行,自动完成数据分析、文件处理等复杂任务;

网络搜索增强 WebGLM- 接入搜索增强,能自动根据问题在互联网上查找相关资料并在回答时提供参考相关文献或文章链接。

此外,ChatGLM3 此次还推出可手机部署的端测模型 ChatGLM3-1.5B 和 ChatGLM3-3B,支持包 vivo、小米、三星在内的多种手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理,速度可达 20 tokens/s。在火热的 Agent 方面,ChatGLM3 集成了自研的 AgentTuning 技术,激活了模型智能代理能力。

既然是对标 GPT-4V,ChatGLM3 也不得不面临输入同一个问题,得到的答案可能是不相同的难题。因为,模型往往通过采样的方式,决定 token 的产出结果,而不是固定取 softmax 算出的最大概率 token。也就是说,幻觉问题极有可能在实际操作中出现。

CNCC 大会的 ChatGLM3 的表现也有一个小插曲,生成一张心形图片,最后变成函数图,也正是幻觉现象在作怪。

除此之外,据张鹏介绍,此次 ChatGLM3 的语义能力与逻辑能力也大大增强。不同并发下的 Token 生成速度相比其他主流开源模型如 vLLM,提升 2-3 倍。对此,张鹏介绍道,一般而言语义数与 token 之间是 1:1.8 的比例关系,也就是说 20 token 相当于 30 到 40 个汉字,其实这也是一般人的每秒平均阅读次数。

现阶段的 ChatGLM3-1.5B-Base 的性能在各个评测级上已经相当于 ChatGlm2-6B-Base 的性能。参数下降,但是性能却明显提升,这保证了在文本处理上 ChatGLM3 的表现。

语义能力与逻辑能力其实是 NLP 领域老生常谈的话题,只不过,如今的大模型竞争,早已从注重多轮对话能力演变成了对长文本能力的追逐之中。

近期,月之暗面发布智能助手产品 Kimi Chat 可支持输入 20 万汉字,按 OpenAI 的计算标准约为 40 万 token;港中文贾佳亚团队联合 MIT 发布的新技术 LongLoRA,可将 7B 模型的文本长度拓展到 10 万 token,70B 模型的文本长度拓展到 3.2 万 token。

在月之暗面 Kimi Chat 发布之际,杨植麟就告诉过 AI 科技评论,目前很多长上下文的模型走的是以下三种捷径:金鱼模型、蜜蜂模型、蝌蚪模型。

“蜜蜂模型”是关注局部,忽略了全局,虽然可以输入整个上下文,但模型可能只是采样其中的局部。比如一篇文章的关键在中间,那么它就无法提取到关键信息。“蝌蚪模型”则是能力不够,可能只有 10 亿的参数量,并不是千亿级别的,所以能力有限。“金鱼模型”可以理解为,以滑动窗口的方式,直接主动抛弃了很多上文,虽然号称的范围很长,但是实际上支持的很短,这种鲸鱼模型很难解决很多任务

三种模型各有利弊,暂时没有一个合适的技术模型能完美地解决所有难题,各家大模型能做的仅仅是在参数、注意力和足够的信息之间进行平衡与取舍,达到适合的范围。

算法层面各有千秋,智谱 AI 告诉我们长文本的突破也许可以从硬件方面下手。

此次 CNCC 大会,张鹏也宣布开源 ChatGLM3-6B-32K。

众所周知,仅就多轮对话能力而言,开源模型和私有模型部署存在代差。目前绝大多数开源模型的上下文都只有 2k,而 GPT-3.5 已经升级到了 16k,GPT-4 目前支持 8K,Claude 的特殊版本极限可以支持 100k。ChatGLM3-6B 的上下文直接提升到了 32k,达到了私有模型水平。

从 2k 扩展到 32k,ChatGLM3 主要是应用了一种叫做 FlashAttention 的技术。关于FlashAttention,“FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness”一文介绍,其实长文本能力的难点在于需要增加序列长度,注意力层是主要瓶颈,因为它的运行时间和内存会随序列长度的增加呈二次(平方)增加。

其实也就可以理解为一个人的阅读文本越长,注意力越不集中,耗费的精力越多,FlashAttention 是从精力方面下手,利用 GPU 非匀称的存储器层次结构,实现了显著的内存节省(从平方增加转为线性增加)和计算加速(提速 2-4 倍),而且计算结果保持一致。也就是说同样的文本,因为个人精力的提升,阅读速度变得更快了。

4.jpg

开源在前,芯片在后

开源大模型的风潮,最开始是 Meta 烧了一把大火。

此前,ChatGPT 月活刚突破 1 亿,Meta 就立马推出 LLaMA(“羊驼”);羊驼被“非故意开源”之后,基于开源模型产生的 GPT 平替大爆发。百川智能的 Baichuan、复旦的 Moss、智源的天鹰等等,不一而足。

开源的意义,对于商业,意味着什么?

这个问题从 Meta 发布 Llama2 之后微软的反应可以看出端倪,在 7 月 19 日 Meta 正式发布首个开源商用大模型 Llama2 后,原本和 OpenAI 拥有长期、深入合作的微软成了 Llama 2 的「首选合作伙伴」,该大模型将通过微软云 Azure 分发。

敌人的敌人便是朋友,技术开源从某种程度上来说是撬动商业蛋糕最好的手段。

2023 年,智谱 AI 选择将单卡版模型 ChatGLM-6B 进行开源,供研究者与个人开发者们进行微调和部署。

ChatGLM-6B 的受欢迎程度是意料之中的,多位开发者曾公开评价,相对于 LLaMA-7B、BLOOMZ-7B1 等同类模型来说,ChatGLM-6B 裸测中文效果最好、模型参数量更小(62亿),国内开发,具有本土优势。

数据显示,智谱 AI 的开源模型在全球下载量已超过 1000 万次,其还针对不同应用场景,开发出了生成式 AI 提效助手智谱清言以及高效率代码模型 CodeGeeX 等 AIGC 模型及产品。

而具体至中国的语境,开源的意义,意味着什么?

这个问题则可以用芯片领域著名的 RISC-V 来回答,由英特尔和 ARM 公司主导的芯片架构领域,X86 和 ARM 几乎处于垄断地位,架构存在不授权或不供应等风险的大背景下。在此种情形之下,开源的 RISC 芯片架构项目,其发起初衷便是可以被自由地用于任何的地方,允许任何人设计、制造和销售 RISC-V 芯片和软件。

由于具备开源开放的特性,RISC-V 架构也因此被国产厂商看作是国产芯片弯道超车的机遇。

放至大模型领域,在 OpenAI 闭源的情况下,大众对于开源的需求与日俱增,而在可以选择又必须选择国产的情况下,智谱AI成为了最佳选项之一。

2023 中国计算机大会(CNCC)上,智谱 CEO 张鹏表示多模态 CogVLM-17B 已开源,它在 10 个多模态榜单中排名第一。

智能体 AgentLM 能让开源模型达到甚至超过闭源模型的 Agent 能力。

除此之外,张鹏还强调了全面适配国产硬件生态,正如前文所提,早在 130B 阶段,GLM-130B 就适配了华为的芯片,如今用华为芯片推理速度提升超3倍。

对智谱 AI 而言,在大模型竞争之中,算力是一个制约发展的重要因素。情况非常复杂,变化很快,影响也很大。推进国产化芯片适配是很有必要的。

5.png

对于整个国内环境而言,智谱 AI 目前是国内唯一全内资、国产自研的大模型企业,适配国产芯片,能让智谱面对不同类型的用户不同类型的芯片提供不同等级的认证和测试,这意味着智谱 AI 的大模型是安全可控的,这也将直接反哺智谱AI 的商业化能力。

这也是为什么智谱如今融资十分快速的原因。

而在全面生态上,目前智谱 AI GLM大模型已经应用于政务、金融、能源、制造、医疗等领域,支持昇腾、神威超算、海光 DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云 10 余种国产硬件生态,合作伙伴包括阿里、腾讯云、火山引擎、华为、美团、微软、OPPO、海天瑞声等数十家公司。

国产大模型围剿「GPT」之后

前段时间,在家电领域出现了关于国产吹风机的讨论。最核心的声音在于戴森之前无国产吹风机。这句话并不是指的对戴森这一品牌的吹捧,而是对中国家电行业的现状反思。

为什么中国造不出戴森,这个命题放在中国的很多行业都可以成立。为什么中国没有苹果、特斯拉这样的领头羊企业,这个疑问放到大模型领域,则变成了为什么中国没有 OpenAI?

在大家都不是 OpenAI 的情况下,智谱 AI 始终追求对标 OpenAI,张鹏也表示,智谱 AI 只会也只能和 OpenAI 和过去的自己比较。

从全局视角来看待,早在 19 年就成立的智谱 AI 在自我发展的过程中碰上了 OpenAI,OpenAI 给所有中国企业或机构都上了一课,如今,他却是最有可能与 OpenAI 对标,走出一条独属于中国大模型自主之路的企业。

历史的有趣之处在于,它并不是由单一因素推动发展,而是由各个不同要素叠加在一起,无数偶然所演变成的必然。当一个国家全力推动国产、一种技术源于国产、一家公司又能做成国产。

三者的命运交相辉映,一段历史的注脚就此产生。

在前文,我们已经讨论过智谱 AI 在国产化上的布局,而具体至商业落地,张鹏在 CNCC 大会表示智谱开放平台 ChatGLM-turbo 价格降低了 50%,这似乎回到了故事的开端,大模型的涌现能力让众人诧异,但高居不下的成本让人望而却步,一个无法面向全人类的产品,性能再完美,商业落地也会存在瑕疵。

而这份瑕疵,却恰恰是智谱 AI 与一众国产厂商最应追求的完美之处。

6.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章