HelloKitty • 2025-02-25 14:58
1091
本文由 雷峰网 撰写/授权提供,转载请注明原出处。
以下文章来源于:雷峰网
作者:包永刚
编辑:王亚峰
不同于春节假期刚结束时近 20 家 AI 芯片公司忙着宣布完成适配 DeepSeek 蒸馏模型的热闹景象,半个月后宣布完成适配满血版 DeepSeek 模型的寥寥数家,这也真实反映出了国产 AI 芯片的真实力。
“只要厂家之前已经支持的大模型的训练推理,那么适配 DeepSeek 就没有任何难度。”芯片软件工程师梓豪说,“我们公司的应用工程师(AE)就可以完成 DeepSeek 蒸馏模型的适配。”
这足以解释为什么有芯片公司可以用数小时时间就完成 DeepSeek 蒸馏模型的适配,但对于一直致力于做大芯片的 AI 芯片公司来说,适配满血版 DeepSeek 更能体现其价值。
目前,华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版 DeepSeek 模型的适配。
“即便是现在已经宣布适配满血版 DeepSeek 的芯片公司,其性能都不太好。”AI 芯片资深工程师杰克说,“从技术上判断,此前已经将大模型跑起来的公司,比如燧原、壁仞、天数智芯适配满血版 DeepSeek 也只是时间问题,之前没有部署过大模型的公司适配满血版 DeepSeek 可能“遥遥无期”。
那么到底适配 DeepSeek 蒸馏模型和满血版 DeepSeek 模型会成为 AI 芯片公司的分水岭?为什么有人说国内 AI 芯片公司的人不懂 AI?DeepSeek 的爆火至少能撑起一家国产 AI 芯片公司的上市?
适配蒸馏版 DeepSeek
模型只是开胃小菜
半个月前芯片公司铺天盖地的适配 DeepSeek 的新闻里,有公司明确表达了适配的是蒸馏模型,也有公司只说适配了 DeepSeek,但适配蒸馏模型和满血版模型之间存在着巨大的差别。
满血版模型指的是与 DeepSeek 官网性能一致的 V3 和 R1 的全量参数模型,其参数高达 671B,一般需要多台高性能 GPU 服务器并行才能流畅运行推理服务。
蒸馏版 DeepSeek 模型是利用 DeepSeek-R1 生成的数据对其他模型进行微调,参数从几 B 到几十 B 都有,比如 DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模型的效果差于满血版,但更易于部署。
“我一度认为适配蒸馏版 DeepSeek 模型没有太大价值,许多工程师也都更倾向于满血版 DeepSeek,但我现在的想法发生了转变。”二十多年芯片行业经验的柏林说,“蒸馏版模型能满足普通用户的聊天需求,对于普及 AI 的意义非常大。”
杰克也表示,虽然蒸馏模型的准确度不如满血版模型,但蒸馏版模型能让端侧 AI 的能力上一个台阶,端侧资源受限,有了 DeepSeek 的蒸馏模型之后,比如原来只能部署 7B 模型的场景,现在能达到 14B 模型的效果。
国产 AI 芯片适配蒸馏版 DeepSeek 模型也难度不大。
无论是使用 GPGPU 架构还是专用 ASIC 架构对 AI 芯片公司,都迅速完成了对 DeepSeek 的适配。“GPT 火了之后所有公司都想办法支持大模型,DeepSeek 和之前的大模型没有本质的不同,有此前适配大模型的工作,适配蒸馏版 DeepSeek 不是难题。”梓豪表示。
“CUDA兼容的 GPGPU 适配起来确实会更容易,但只要给 ASIC 更多时间做到极致,性能可以超过GPU。”杰克认为。
从长期看,无论什么架构的芯片,如果只是支持几个有限的模型,总能在这个架构上找到最优的解决方案。DeepSeek 的火爆,主流模型就是 DeepSeek 和 LLMA 等少数几个,从这个角度看,对 AI 芯片公司来说算是好事。
对于采用国产 AI 芯片的智算中心来说,DeepSeek 的火爆同样是重大利好。
“DeepSeek 火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说,”但现实的问题是,如果适配 DeepSeek A100 的性能是100分,这家国产卡跑起来只有几分的性能,使劲优化也只有 A100 十几分的性能。”DeepSeek的火爆到底如何影响智算中心发展?
既然从普及 AI 和适配的角度,蒸馏版 DeepSeek 就有巨大的价值,那为什么还要适配满血版DeepSeek?
“只有部署了满血版 DeepSeek 模型,才能得到蒸馏版模型,我认为这是部署满血版 DeepSeek 模型的重要原因。”杰克表示。
国内领先 AI 芯片最快月底能
适配「好」满血版模型
但是想要部署参数高达 671B 满血版 DeepSeek-R1 模型,即便是 Int8 精度模型的大小也高达 671G,以单卡 96G HBM 计算,单机 8 卡总共 768GB 也只是勉强够部署满血版 DeepSeek,只要模型精度比Int8更高,单台服务器就无法部署满血版 DeepSeek 模型。
此时就需要多机互联,这正是国产AI芯片公司仍未很好解决地问题。
“Nvidia有 NV Link,国产芯片没有多机互联的解决方案会选择 InfiniBand(IB)或者高速以太网 RoCE 实现互联,这些方案的通信的延迟很大,这就极大程度会影响最终部署的效果。”杰克说,“多卡和多机互联是国产芯片适配满血版 DeepSeek 的第一个难点,如果之前没有解决通信问题,想做起来很难,距离成功适配满血版 DeepSeek 可能遥遥无期。”
梓豪认为在多机互联方面,摩尔线程和沐曦有一定的优势。
另一个难点是 DeepSeek 的 MoE 混合专家系统,MoE 是多一个 router(路由模块)的计算,它会将 token 路由至合适的专家权重去做计算,这个路由是动态的,这和此前的 Transformer 大模型的部署不一样,这也是一个全新的挑战。
对于所有国产 AI 大芯片而言,还有一个硬伤就是不原生支持 FP8 数据类型,DeepSeek 模型采用了 FP8 混合精度训练,全球领先的 AI 芯片公司英伟达从 H100 开始,AMD MI325X 都原生支持 FP8。
“不原生支持 FP8 不意味着就不能部署满血版 DeepSeek,只是会带来效率问题,比如用 FP16 来部署,就需要 2 倍的存储。“杰克表示,这就意味着需要更多卡,问题又到了多卡多机互联。
要注意,即便是 2024 年推出的新一代国产 AI 卡,也没有支持 FP8。
柏林认为,最新的国产 AI 芯片不支持 FP8、FP4 这类非 IEEE 定义的数据类型,说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达 2022 年推出的 H100 就已经支持了 FP8,已经有人做出产品,就算照着“抄”也不难了,这体现了国内许多做 AI 芯片的人并不懂 AI。
即便解决了技术难题可以部署满血版 DeepSeek,从可用到好用还有一段很长的距离。杰克就深有感触,此前适配大模型的时候,杰克所在的公司跨机通信也解决了,但是要实现性能的提升难度很大。
这也是目前国产芯片公司适配满血版头疼的问题。
雷峰网了解到,目前国内领先的 AI 芯片公司以 4 台服务器(32 卡,FP16 数据类型),或者 2 台服务器(16卡,Int8 数据类型)适配满血版 DeepSeek 的效果也只达到了 10tokens/s,其目标是在本月底前能够达到 25tokens/s,性能大概是英伟达 H100 的 25%。
另有消息称,国内上市 AI 芯片公司在智算中心已经达到了适配满血版 DeepSeek 25tokens/s 的性能。
从用户的角度,使用满血版 DeepSeek 要有比较好的使用体验有两个非常直观的指标,一个是首字延迟,另一个就是每秒吞吐量。大致而言,首字延迟在 1-1.4 秒是大部分用户能够接受的延迟,而每秒生成 20token 能满足正常阅读的需求。
这样说来,即便是国内领先的公司,最快也要到本月底达到让用户相对满意的使用体验。
至于其他 AI 芯片公司,雷峰网了解到,在上市辅导流程里的 AI 芯片公司有两家适配满血版 DeepSeek 的速度在 10 tokens/s 及以下。
AI 大芯片公司的张伟判断,未来一个月适配不好满血版 DeepSeek 的 AI 公司可能有一半。柏林认为,未来一个季度国产 AI 芯片都会陆续适配满血版 DeepSeek。
“其他已经有成功部署大模型经验的芯片公司适配满血版 DeepSeek 只是时间问题。”杰克说,“这些公司里好几家都处于上市辅导阶段,我认为谁能更快、更好支持好满血版 DeepSeek,我认为会大幅增加他们上市的概率,因为很多机构和公司都在积极部署满血版 DeepSeek,有利于 AI 芯片公司做出真实的业绩,支撑其上市。”
不过两位芯片投资人都对雷峰网表示,A 股的成功上市的因素比较复杂,能够支持好满血版 DeepSeek 确实是实力的体现,但对于最终成功上市很难说有直接利好。
毋庸置疑的是,DeepSeek 对于国内芯片、智算中心、AI 应用都是巨大利好,我们已经处在 AI 变革前夜。
注,文中梓豪、杰克 、柏林、博远、张伟均为化名
扫码关注公众号
获取更多技术资讯