HelloKitty • 2024-03-18 16:44
2423
本文由 新智元 撰写/授权提供,转载请注明原出处。
文章来源于:新智元
作者:新智元编辑部
说到做到,马斯克 xAI 的 Grok,果然如期开源了!
就在刚刚,xAI 正式发布 3140 亿参数混合专家模型 Grok-1 的权重和架构。
3140 亿的参数,让 Grok-1 成为迄今参数量最大的开源 LLM,是 Llama 2 的 4 倍。
目前,xAI 关于 Grok-1 没有透露更多信息。
官网放出的信息如下——
- 基础模型在大量文本数据上训练,未针对任何特定任务进行微调。
- 314B 参数的 MoE,有 25% 的权重在给定 token 上处于激活状态。
- 2023 年 10 月,xAI 使用 JAX 和 Rust 之上的自定义训练堆栈从头开始训练。
一经上线 GitHub,Grok 就狂揽了 6k 星,586 个 Fork。
项目地址:https://github.com/xai-org/grok-1
马斯克还不忘嘲讽 OpenAI 一番,「告诉我们更多关于 OpenAI 的「open」部分...」
纽约时报点评道,开源 Gork 背后的原始代码,是这个世界上最富有的人控制 AI 未来战斗的升级。
开源究竟会让技术更安全,还是会让它更滥用?
「开源支持者」马斯克,以身作则地卷入了 AI 界的这场激烈辩论,并用行动给出了答案。
小扎刚刚也对 Grok 做出了评价,「并没有给人留下真正深刻的印象,3140 亿参数太多了,你需要一堆 H100,不过我已经买下了」。
一条磁力链,全球首个最大模型开源
这次 xAI 开源 Grok-1,遵守的是 Apache-2.0 许可证,因此,用户可以自由使用、修改和分发软件。
存储库包含了用于加载和运行 Grok-1 开源权重模型的 JAX 示例代码。
用户需要下载 checkpoint,将 ckpt-0 目录放置在 checkpoint中,随后运行以下代码来测试:
1.pip install -r requirements.txt
2.python run.py
这个脚本会在测试输入上,加载 checkpoint 和模型中的样本。
由于模型较大,参数达到了 314B 参数,因此需要具有足够 GPU 内存的计算机,才能使用示例代码测试模型。
而且,由于此存储库中 MoE 层的实现效率不高,选择该实现是为了避免需要自定义内核来验证模型的正确性。
通过 Torrent 客户端和下面这个磁力链接,就可以下载权重了
1.magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=http%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
更多细节
斯坦福研究者 Andrew Kean Gao 浏览了 model.py 介绍了更多 Grok 的架构信息,3140 亿参数没有更多附加条款。
8 个混合专家(2 个活跃专家),860B 活跃参数。它使用旋转嵌入,而不是固定位置嵌入。
- tokenizer 词汇量:131,072(于 GPT-4 类似)相当于 2^17
- 嵌入大小:6144(48*128)
- Transformer 层:64(每一层都有一个解码层:多头注意块和密度块)
- 键值大小:128
多头注意模块:有 48 个查询头和 8 个键值
密集块(密集前馈块):
- 宽度因子(Widening Factor):8
- 隐藏层大小为 32768
每个 token 从 8 个专家中选出 2 个。
旋转位置嵌入大小 6144,这是有意义的,它与模型的输入嵌入大小相同。
- 上下文长度:8192 个 token
- 精度:bf16
最后,附上一张总结版图。
网友:开源争霸战要来
AI 社区已经沸腾了!
技术界指出,Grok 的亮点是在前向反馈层中使用了 GeGLU 以及归一化方法,并且使用了有趣的三明治范式技术(sandwich norm technique)。
连 OpenAI 的员工,都表示了自己对 Grok 的强烈兴趣。
英伟达高级科学家 Jim Fan 表示,「有史以来最大的开源大模型,由世界级团队训练,通过磁力链 Apache 2.0 发布。
314B 参数,混合专家模型(8 个专家 2 个是活跃的)。就连活跃参数规模(86B)都超过了最大的 Llama 模型。迫不及待地想看到基准测试结果,以及人们能用它构建出什么样的应用」。
AI 研究人员 Sebastian Raschka 表示,与其他通常有使用限制的开源模重模型相比,Grok 更为开源。不过它的开源程度低于 Pythia、Bloom 和 Olmo,后者提供了训练代码和可重现的数据集。
Craiyon 创始人 Boris Dayma,详细分析了 Grok-1 的代码。
网友 indigo 表示,为了「理解宇宙」的理念,看来 xAI 团队特意把参数设定成了「圆周率 314B」,这是目前规模最大的开源模型,期待今年 6 月的 Llama 3 加入 Grok 的开源争霸战。
Grok 开源后,一大波微调要来了。
第一代 Grok 已超越 Llama-2-70B
2023 年 11 月,xAI 推出了自己的第一代大语言模型 Grok,正式加入大模型的战争。
当时,Grok 在推特上作为「Premium+」订阅服务的一部分,月费 16 美元。
xAI 表示,Grok 的设计灵感来源于《银河系漫游指南》,它能够回答几乎所有问题,助力人类不分背景或政治立场地追求理解和知识。
Grok 最初的版本 Grok-0 拥有 330 亿参数,紧接着 xAI 推出了经过数次改进的 Grok-1,为 X 上的 Grok 聊天机器人提供支持。
根据 xAI 公布的数据,在 GSM8K、HumanEval 和 MMLU 等一系列基准测试中,Grok-1 的表现超过了 Llama-2-70B 和 GPT-3.5,虽然跟 GPT-4 还差得远。
当时,Grok 不仅能够处理X平台上实时生成的用户内容,还带有一点幽默感,给憨憨的AI注入了一丝活力。
在提供最新热点事件信息(无论是政治还是体育)的同时,它还能抖个机灵,甚至偶尔讽刺一下。
马斯克为何选择开源?
在数次嘲讽 OpenAI 是「CloseAI」之后,马斯克果真选择了开源自家大模型。
当然,这背后肯定也有商业上的考量。
作为市场领导者的 OpenAI,是没有理由开源 ChatGPT 背后模型代码的。
现在,通过发布 Grok 的代码,马斯克将自己牢牢扎根在后者的阵营中。这一决定,或许能让他的 xAI 超越 Meta 和 Mistral AI。
Llama 的开源给 Meta 带来了很多好处,几乎让小扎从元宇宙的泥潭爬了出来。
而仅仅只是一个小型初创公司的 Mistral AI,也因为自己的开源策略而声名鹊起,被业界公认为「欧洲的 OpenAI」。
开源版本可能会鼓励开发者和潜在客户更快地采纳自己的模型,实际上起到了市场推广的作用。
开发者社区对 Grok 开源版本的反馈和改进也可能有助于 xAI 加速开发新版本,这些新版本 xAI 可以选择开放源代码或保留专有权。
比如像 Mistral 一样,承诺继续发布开源版本,同时为付费客户保留最先进的模型。
马斯克一直是开源技术的支持者,连 Tesla 也已经开放了汽车某些部分的源代码,而他的社交媒体平台 X 公开了一些用于内容排名的算法。
「还有工作要做,但这个平台已经是迄今为止最透明、最注重真相、不是高门槛的平台,」马斯克今天在回应对开源X推荐算法的评论时,这样说道。
尽管 OpenAI 目前在 AI 领域仍遥遥领先,但开源和闭源的战争还远远没有结束。
AI 模型是否应该开源?某些人认为,必须防止这种强大技术免受闯入者的侵害,而另一些人则坚持认为,开源的利绝对大于弊。
作为市场领导者的 OpenAI,是没有理由开源 ChatGPT 背后模型代码的。
现在,通过发布 Grok 的代码,马斯克将自己牢牢扎根在后者的阵营中。
这一决定,或许能让他的 xAI 最终超越 Meta 和 Mistral AI。
参考资料:
https://x.ai/blog/grok-os
https://twitter.com/itsandrewgao/status/1769447551374156097
https://www.wired.com/story/elon-musk-no-choice-open-chatbot-grok/
扫码关注公众号
获取更多技术资讯