OpenAI刺破了中国AI的幻想

HelloKitty • 2024-07-04 15:52

扫一扫在手机阅读、分享本文

1938

本文由脑极体撰写/授权提供，转载请注明原出处。

文章来源于：脑极体

作者：藏狐

OpenAI 在 6 月 25 日凌晨宣布，将从 7 月9日起，将阻止来自不支持其服务的国家和地区的 API 流量，而中国也在禁用名单之列。

消息一出，国产大模型们应声而动，立刻推出了相应的“搬家”或“迁移”方案。有的还提出了与 OpenAl 使用规模对等的 Token 赠送计划（不设上限），坊间戏称，“这下中国做 AI 的可以实现 token 自由了”。

我们知道，海外对于中国 AI 的限制一直存在。但此前针对 AI 的禁令，主要是限制英伟达和 AMD 的高性能 AI 算力卡，而 OpenAI 此次强势禁用，则让 AI 软件算法层面的“另一只靴子落地”。

从硬件到软件，越来越扩大的禁用范围，以及越来越严格的限制，无时无刻不在提醒着我们，在 AI 这一关键科技领域，全方位阻隔中国的进步，已经是一张明牌了。

面对这个不可逆的 AI 封锁大趋势，中国企业受的影响到底有多大？AI 全面国产化，中国做好准备了吗？

放弃幻想 OpenAI 禁用到底影响了谁？

自 ChatGPT 发布以来，OpenAI 的 API 已向近 190 个国家和地区开放，其中并不包括中国。不过，一直以来，一些国内企业和用户，可以通过技术手段来继续使用 OpenAI 的服务。

对于这些来自中国的流量，OpenAI 并非检测不出，只是以前可能“枪口抬高了一寸”。

而就在 6 月 22 日，美国财政部发布了一份规则草案，进一步限制美国个人和企业投资中国的半导体、量子计算和人工智能业务。新规则草案推出，面对越来越明确的 AI 封锁态势，OpenAI 也主动明哲保身，选择了加强区域限制，采取额外措施阻止来自不受支持地区的 API 流量。

到底是什么人和公司“明知不可为而为之”，在使用 OpenAI 的 API 呢？主要有三类：

一是部分自研模厂。一部分模厂会在研发阶段，调用 OpenAI 的 API，使用其 GPT 产品进行模型训练、数据对比迭代等。实际上，谷歌 Gemini-Pro 大模型的训练也曾用到了百度文心生成的数据。此前就有国内某互联网公司，被爆出经常达到 OpenAI API 的最大访问上限，不过对方也表示，仅在年初的初期探索阶段使用了 OpenAI 的 API，而在今年 4 月已经停止了这种做法。

二是套壳 AI 公司。一些初创公司为了快速推出 AI 产品或服务，可以通过技术手段，对 OpenAI 的 API 进行封装，“改头换面”作为自己的产品推向市场。实际上用户的每次交互，都会通过 API 调用 OpenAI 的模型来完成。

三是面向海外市场的应用开发者。在 OpenAI 所支持的国家和地区，为了跟海外开发者“站在同一起跑线”，而选择 OpenAI API。

目前来看，上述群体受 OpenAI 禁令的影响程度都不高。

随着国内模厂的模型基本完善，不用再通过调用 API 的方式收集数据。海外应用的开发，应用往往需要对本地市场的深入了解，因此国内开发者数量规模也较小。相比之下，“套壳 API”的初创公司可能受到的打击是最大的，不过通过“搬家”切换到国产大模型，快速找到能力接近的替代方案，也能一定程度上规避风险。

所以总体来说，OpenAI 更严格的 API 限制，并不会给中国 AI 带来很大的动荡。

但这并不意味着，中国 AI 可以高枕无忧了。从“英伟达禁令”到“OpenAI 禁令”，发出了一个鲜明的信号：“潘多拉魔盒”一旦开启，就不会关上，针对中国AI的封锁，也不可能在短时间内被撤回。

是时候摒弃“枪口抬高一寸”的侥幸心理和幻想了，事实证明，枪口随时可以朝下扣动扳机。

认清现实：不可逆的 AI 封锁还有哪些牌可出？

在封锁烈度上，美国官方和 AI 企业的行动在不断加强；在封锁广度上，从高性能 AI 芯片的底层算力，到大模型的底层算法，“釜底抽薪式”的封锁正逐渐延伸到AI基础设施的各个关键部分。

那么，在算力禁运、算法禁用之后，海外想要阻隔中国 AI 的发展，还有哪些牌可以打？梳理一下 AI 软件基础设施：

1. 框架。深度学习框架，是支持 AI 算法模型开发和部署的软件平台，对 AI 应用的开发效率和性能有重要影响。目前国内深度学习框架市场主要由飞桨（由百度开发）、TensorFlow（由Google开发）、PyTorch（由 Meta 开发）三家主导，共同占据了超过 80% 的市场份额。这三家均为开源框架，允许开发者自由地查看、修改和使用其源代码，不过 TensorFlow、PyTorch 作为开源平台也需要遵守所在国法律法规，并可以通过开源许可证等方式，限制开发者的访问。

2.算子库。包含各种数学和逻辑运算函数的库，在深度学习框架中扮演着至关重要的角色，为各种算法提供了基础的计算单元。如果算子库是闭源的，又归属于海外公司，那么可以直接限制使用。开源的算子库也要遵循一定的开源协议，协议中往往会规定代码的使用、修改和分发规则，如果开发者没有获得适当的许可或权限，也无法使用。目前，国内飞桨、昇思等 AI 开发平台都发布了算子库。

3.数据集。AI 界有句名言“garbage in，garbage out（垃圾进，垃圾出）”，高质量的数据集，对于 AI 算法模型的性能至关重要，在大模型时代也不例外。各个领域和应用场景都有专有数据集，比如计算机视觉领域的 MNIST、CIFAR、ImageNet 等。NLP 领域的 SQuAD、GLUE 等，再比如 AI 蛋白质结构预测任务所需要的数据集，如 CASP、AlphaFold DB、PDB 等，这些数据集为 AI 研究提供了丰富的数据资源，大多由海外研究机构建立。

近年来，中国 AI 领域的高质量数据集也在快马加鞭地建设，数据治理体系也在不断完善，数据作为核心生产要素的战略地位不断提升。但现阶段，与海外一流水平还有差距。而 AI 算法的特别之处在于，不像传统软件能一次开发完成，模型需要不断学习、迭代和进化，依赖于持续更新的数据集进行训练。一旦数据集被阻止访问，就如同剥夺了模型成长的土壤，甚至可能变得停滞不前。

此外还有编译器、IDE 等，这些软件工具可以大大提高开发者的编程效率。如果被禁用，开发者将需要手动完成这些工作，从而导致开发效率降低，团队协作困难，甚至影响项目的进度和质量。