哪家中国芯片公司能「吃下」大模型?

HelloKitty 2023-07-31 16:52

扫一扫 在手机阅读、分享本文

1652

本文由 雷峰网 撰写/授权提供,转载请注明原出处。

文章来源于:雷峰网

作者:包永刚

编辑:王亚峰

ChatGPT 火爆时,浩然被两股矛盾的情绪夹在缝隙:一面是兴奋,一面是悲伤。

作为一名 AI 芯片公司的高级软件工程师,ChatGPT 大爆发前夜,浩然对自己参与研发的大算力 AI 芯片充满信心,他相信为特定 AI 算法研发的专用芯片,相比英伟达通用的 GPGPU 在同等功耗下可以有 2 倍的性能优势,价格可以做到 50% 甚至更低,只要软件体验不太差,客户一定会买单。

可 ChatGPT 掀起的大模型热潮,让浩然和同行们都开始思考,AI 算法是否有从百家争鸣走向大一统的可能。

这意味着,过去为特定领域 AI 算法研发的专用 AI 芯片,由于计算负载特性的急剧变化,之前的性价比优势会被明显削弱,英伟达兼具高显存带宽和高互联带宽特性的通用 GPU 优势将会进一步扩大,想要和英伟达竞争的难度更大了,这让浩然有些悲观。

但从自己工作的角度,AI 算法的大一统可以让硬件工程师和软件工程师工作的目标都更清晰,工作会难度降低,这是浩然欢呼的理由。

“我不相信英伟达能一直保持领先。”芯片架构师宇阳保持信心,“GPU 不见得是大模型的最佳解,中国 AI 芯片公司里一定会有能和英伟达掰手腕的公司。

国内众多的 AI 大芯片公司,谁能吃下大模型市场?

芯片公司想喝口大模型的汤也不容易

就算是英伟达长久以来的竞争对手 AMD,在英伟达大口吃 AI 大模型肥肉的时候,AMD 也没喝上多少汤。综合实力不及 AMD 的国内初创公司们,就算嘴上高呼赶超英伟达,心里也清楚能做互联网公司的第二供应商,喝上大模型的汤就是巨大的成功。

大模型火爆,全世界的公司都在找英伟达买 GPU。原先售价3万多美元的最新款 H800 GPU,就算终端售价加价 1 万多美元依旧一卡难求。这种供不应求的盛况直接将英伟达的市值推向 1 万亿美元,创造了全球半导体公司市值的新纪录。

“客户很奇怪,就算 AMD 有性能不错的 GPU 现货,许多想要购买 H800 GPU 的人依旧不为所动。”一家 AI 芯片公司的高管道出想要超越英伟达的难度。

技术出身,如今已是芯片公司高管的洪杰深谙其中的道理,“客户对 AMD 的要求和对英伟达产品的要求一样,有的时候甚至更苛刻,客户愿意买单的替代产品是比英伟达的 GPU 便宜,体验还要差不多。”

“采购英伟达 GPU 量最大的公司还没有第二供应商。”洪杰感叹,“不得不承认英伟达的强大,现阶段不要说超越英伟达,成为二供都很难。”

困难的事情往往收益很高,像是字节跳动这类大客户,每年采购英伟达 GPU 的订单金额就接近百亿元。只要能从英伟达嘴里分到几十亿的市场份额,就足够养活几家国内的 AI 芯片公司。

离开 AMD 创业的人成为二供的概率会更大吗?

「追随派」和「创新派」争抢大模型

国内 AI 大芯片初创公司非常特别,有跟随英伟达路线做 GPGPU 的初创公司,可以叫他们“追随派”。也有另辟蹊径,设计 AI 专用芯片(也就是DSA,Domain Specific Architecture,领域专用架构)的“创新派”。

这是一个非常有趣的现象,因为在国外只有创新派没有追随派,也就是没人选择走 GPGPU 的技术路线创业。

“所有人都知道,沿着英伟达的路径不可能超越英伟达,这几乎是不证自明的事情。并且,西方的创业者更喜欢做颠覆式创新。”洪杰分析,“寻求颠覆式创新的架构师们对 AI 计算问题的理解与定义不同,自然也计出了各种不同的 AI 芯片架构。”

谷歌定义的 TPU 专用性很强,是一个典型的领域专用芯片 DSA。被誉为全球 AI 芯片独角兽的 SambaNova Systems 选择了可重构架构。Cerebras Systems 走了一条直接用晶圆做芯片的路。英国 AI 芯片独角兽 Graphcore 创造了独特的 IPU 架构。

国内也有多家走 DSA 路径创业的 AI 大芯片公司,比如寒武纪、昆仑芯、燧原科技、瀚博半导体、墨芯人工智能。

“选择 DSA 路径创业还有一个优势,核心IP设计门槛相对较低。”芯片编译器专家德辉打了个比方,

用搭乐高来理解设计 GPGPU 和 DSA 的难度,设计 GPGPU 就是面向 18 岁以上玩家的乐高,有许多精细的小模块,拼起来难度大但作品很精巧。设计 DSA 就像是面向 5 岁的乐高,模块更大拼起来更容易。

“DSA 的门槛可以很低,上限也可以很高。”宇阳说,“ GPU 也是一个 DSA。最初的 GPU 图形专用加速芯片,没有可编程性,后来英伟达为其增加了通用性之后才变成了 GPGPU。”

英伟达将 GPU 变为大众认知里的通用芯片,也是通过了近 20 年的努力,从建立 CUDA 软件生态到成熟,让 GPGPU 能做图形加速,AI计算,科学计算。

“从技术维度,区别 CPU 和 DSA 可以看其是否能运行 Windows、Linux 这样的操作系统。”宇阳补充,“从这个角度看 GPU 依旧是 DSA。”

只是在大部分人眼里,英伟达的 GPGPU 已然成为了一颗通用芯片,在当下最为火热的 AI 市场里供不应求。

早已看到英伟达 GPGPU 强大的中国创业者,直接选择了 GPGPU 架构进行创业,就像天数智芯、登临科技、壁仞科技、海飞科。

“选择 GPGPU 的路径虽然不能超越英伟达,但有国产替代的刚需,而且这条路线可以通过多种技术方案做到‘兼容 CUDA’,降低用户的软件切换成本。”浩然直言,“有了国产替代的需求,让中国大芯片创业公司有机会与英伟达竞争,并且最终一定会留下几家 AI 大芯片的公司。”

这时谁能吃下大模型的问题就变成了追随派和创新派的机会谁更大?

两派相争,创新派已死?

一个非常犀利的观点是,DSA 已死。这是一个极具争议性的话题。

这种论调核心的逻辑是英伟达编程性很强的 GPGPU 已经通过了 AI 大模型的验证,在 Transformer 让 AI 算法趋于收敛的现状下,英伟达可以通过手工优化底层代码,高效调度底层硬件获得持续的性能提升,让已经流片量产的 DSA 不再拥有设计之初的巨大性能优势。

“算法不确定的时候,英伟达没有动力针对某个算法做手工优化。这让针对某类算法(比如CNN)的 DSA 可以有 2 倍甚至更多的性能优势。”浩然对 DSA 的未来有些悲观。

“现在算法和模型收敛,英伟达进行手工优化可以充分释放出硬件的性能,每一代 CUDA 升级都会带来 10-20% 的性能提升。而通过底层硬件固化实现性价比优势的 DSA 要持续通过软件优化提升性能的难度很大,极端的情况软件甚至没有多大的提升空间。”

德辉从他擅长的编译角度解释,Flash Attention 系列工作在大模型上的惊艳效果,正是说明针对特定模型的手工融合大算子是一种典型手段,本质是通过手工将特定的模型子结构从存储受限(memory bound)转化成了计算受限(compute bound),最大程度发挥出了 GPU 的计算性能。

“这种方式只是做了局部的优化,手工成本比较高,也难以大规模推广。”德辉不认为 DSA 已死,“只有拥有一个能够自动生成融合算子的编译器,GPU 才能最大程度发挥出性能优势。但自动编译 CPU 做了几十年也没做出来,这是一个业界难题。”

比编译器更底层的芯片架构,也决定着计算 AI 大模型任务的效率。

宇阳也指出了 GPU 架构的局限性,GPU 为了保证很强的编程性,在架构上借鉴了 CPU 的设计,芯片上没有缓冲器(Buffer),每次操作的对象只能是寄存器,典型寄存器大小是个很短的向量,比如 64 字节,这是保证编程灵活性的最好设计,但数据要不断在芯片内部和外部存储之间搬运,效率不高。

“AI 大模型动辄就是上百亿个参数,要提升计算效率需要尽量减少数据的搬移。DSA 可以为大模型设计很大的片上缓存,一次可以操作 64 字节的上千倍,相比 GPGPU 有明显优势。”宇阳指出。

两者的差别非常明显,GPGPU 计算 AI 模型时计算单元的利用率一般情况下只有 30%-40%,而 DSA 一般都能做到计算单元的利用率达到80%-90%。

“许多人没看到 DSA 的核心价值——数据流优化。”德辉的经验告诉他,“通过充分发挥 DSA 片上有的大存储器(SRAM)优势,利用编译器进行彻底优化,实现理想的图编译,每一层都把大模型计算的存储受限转化为计算受限,能够最大化 DSA 的优势。”

而 DSA 的优势没被充分挖掘出来,还是因为许多 DSA 芯片公司都在用英伟达的思路设计软件。

“用英伟达 GPGPU 的方法设计软件既是一个思维定式,也是一个经过验证成功的路,风险更低。并且,要针对 DSA 的优势用另外的思路设计编译器,也有技术上的挑战,比如打破算子边界带来的复杂性。”这是德辉的心得。

即便再看好 DSA,宇阳和德辉都没有否认未来的趋势是混合 DSA。

专用和通用融合才是大模型的最优解

“一个完美的 AI 大模型处理器应该是用 T4 GPU 的计算核心,用 H100 GPU 的显存。”洪杰用一个形象的说法道出大模型的真实需求。

而兼具通用性和专用性的混合 DSA 芯片才是满足大模型需求的理想产品,未来 AI 芯片公司的比拼是混合 DSA。

6 年前,英伟达的 Volta 架构首次为深度学习加入了 Tensor Core,此后的每代架构都不断优化 Tensor Core,增强 GPU 的 AI 性能。

2022 年发布的 H100 GPU,又增加了软硬结合的 Transformer Engine,目的是加速 AI 大模型计算。

Tensor Core和Transformer 引擎,都是为 AI 工作流设计的专用计算单元。也就是说,英伟达早就在“通用”的 GPGPU 上增加了“专用”的 AI 加速单元,这种融合设计兼顾了 GPGPU 的通用性,又能发挥专用加速单元的能效比优势,更像是大模型的最优解。

这里有一个会让人费解的问题,既然 AI 模型都稳定了,为什么不是设计一个 Transformer 专用的加速芯片,还需要通用性?

“算法的类别虽然从几千种变成几百种,但还在不断优化,只有具备足够的通用性,才能最大化芯片的价值。”宇阳解释。

“从芯片的设计规律看,设计一个 Transformer 专用加速芯片,去‘赌’未来三至五年内不会有新的模型结构颠覆性的替换掉 Transformer,也是一个非常疯狂的想法。”浩然补充。

那混合 DSA 的路线明确之后,各家芯片的差异会如何体现?

“混合 DSA 其实就是在通用的 CPU 和纯粹专用的DSA之间找一个平衡点。不同的架构师选择的点会完全不一样,但到底谁的设计更好,需要时间的检验。因为架构的设计不是一个纯粹的技术问题,还与当时所处的时间,环境有很大关系。”宇阳这样认为。

其中有赌的部分,浩然说,“混合 DSA 的片上存储(SRAM)非常贵,因为需要占用的芯片面积非常大,所以到底设计多大的 SRAM,需要赌。”

最终混合 DSA 芯片之间差异将会很小。

“就像如今安卓系统和 iOS 系统越来越像一样,最后能够留下来的混合 DSA 架构的 AI 芯片,可能也是 80% 相同,只有 20% 不同。”洪杰做出了这样的判断。

但在走到这一天之前,混合 DSA 还有一个巨大的难题——比 GPGPU 和 DSA 都更复杂的软件栈。这很容易理解,既然是将两种架构融合,系统就更加复杂,难度自然也更大。

当然,更明确的算法又能降低软件开发和优化的难度。

此时,就可以回到最初的问题,中国芯片公司谁能喝到大模型的汤?

谁能更快吃上大模型?

商业的成功不是单纯的技术路线“好坏”就可以决定,现在可以看到的是,跟随派转向混合 DSA 的技术难度相对低一些,创新派有 RISC-V CPU 可选,可谓各有优劣。具体到每一家公司的时候,情况又各不相同。

“GPU 的众核(Many Core)设计,相比 DSA 的设计难度更大,所以已经设计出 GPGPU 的初创公司,再增加一个 DSA,比 DSA 增加一个 GPGPU 的难度小一些。”浩然从众核设计的难度判断各家芯片公司面临的挑战大小。

“GPU 的一致性控制确实很难。”宇阳部分认同浩然的观点,“但增加可编程性并不一定就是要做一个 GPGPU,有很多路径可选。”

德辉就非常看好 RISC-V CPU 加上 DSA 的混合 DSA,“RISC-V CPU 可以提供向量计算,并且有足够的通用性,与 DSA 混合是一个不错的选择。”

这种混合 DSA 方式要自己建立软件生态,需要投入的资源巨大。

“芯片要落地非常关键的是要接受客户的批评和质疑,然后务实地迭代。”洪杰的想法是,“芯片公司要把客户不愿做的活都做了,比如迁移芯片的大量工作,让客户可以无感迁移,但这需要极大的人力和时间的投入。”

相比之下,DSA 路径的公司想兼容 CUDA 生态的难度比 GPGPU 路径的公司难度更大。

但对于走 GPGPU 路径创业的公司也不是一件容易的事情,要兼容英伟达的 CUDA 生态,硬件设计和软件都要尽量接近英伟达,才能实现接近英伟达 GPU 的性能。

“AMD 就是走兼容英伟达的路,国内公司走这条路的天花板就是 AMD。”德辉指出,“在部分场景做到英伟达 80% 的体验没有问题,但超越不了英伟达。”

再大致看看各家的情况,追随派里天数智芯和登临科技具有先发优势,壁仞科技也被多位内工程师视作黑马。

创新派里的寒武纪受到美国禁令的限制前途难料;燧原科技每一代产品都采用了 HBM(高带宽存储器)适合大模型,但和其它公司一样,软件是个不小的挑战。

注意一个时间点,2025 年英特尔计划推出融合其 GPU 和 DSA 的新一代 AI 芯片,那时候 AI 芯片的竞争将会更加激烈。

你看好哪家 AI 芯片公司?

注:文中浩然、宇阳、洪杰、德辉均为化名

最新.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章