Grok-2来了!马斯克连发两款AI模型,开放内测

HelloKitty 2024-08-15 16:07

扫一扫 在手机阅读、分享本文

1028

本文由 硅兔君 撰写/授权提供,转载请注明原出处。

文章来源于:硅兔君

作者:Xuushan

编辑:蔓蔓周

8 月 14 日消息,刚刚,马斯克旗下的 xAI 发布了两款 AI 模型 Grok-2 和 Grok-2 mini 的测试版,xAI 进一步展现自己在 AI 领域强大的创新能力。

1.png

体验链接:https://x.com/i/grok

与 Grok-1 相比,Grok-2 更直观、可操作且功能多样,能够执行各种类型的任务,如找答案、帮助 AI 写作以及编写代码等。而轻量化 AI 模型 Grok-2 mini 是参数小巧但功能强大的 AI 模型,是 xAI 在 AI 模型的响应速度和保证答案质量权衡后之间做出得最优解。

2.png

早些时候,Grok-2 在竞争性语言模型基准 LMSYS 上以"sus-column-r"的名字进行了测试,并且在整体 Elo 得分上超越了 Claude 3.5 Sonnet 和 GPT-4 Turbo。

3.png

可以看到在胜率方面,Grok-2 远远领先于 DeepSeek V2deng,与 GPT-4o 几乎持平。

4.png

xAI 还通过 AI 导师系统测试 Grok 与新的模型互动表现,主要评估模型在两个关键领域的能力:遵循指示和提供准确真实的信息。

在每次互动过程中,Grok 都会向 AI 导师提供两个不同模型的响应。他们会根据指导手册里对于特定场景、特定条件的指示,选择最佳的模型响应。可以看到,Grok-2 在内容检索以及工具使用方面的能力大幅提升,Grok-2 也赢得了 AI 导师的“爆灯”支持。

5.png

此外,Grok-2 在研究生水平的科学知识(GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。

Grok-2 还在基于视觉的任务方面表现出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面表现出色。

6.png

Grok-2 还是 X 平台的 AI 助手,具有文本和视觉理解方面的高级能力,集成了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 选项卡访问。

此外,Grok-2 在推理检索到的内容和工具使用能力方面表现出了显著的进步,例如正确识别缺失信息、通过事件序列进行推理以及隐藏无关帖子。

7.png

Grok-2 和 Grok-2 mini 现在都已在 X 平台上向 Grok 用户发布,将于本月晚些时候开放企业 API。届时,X Premium 和 Premium+ 用户均可在 Beta 测试中体验 Grok-2 和 Grok-2 mini 的高级功能。不仅如此,xAI 正在测试 Black Forest Labs 的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。

本月晚些时候,xAI 还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini,新的 API 将建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。

xAI 还将增强相关安全功能,例如强制性多因素身份验证(例如使用 Yubikey、Apple TouchID 或 TOTP)、丰富的流量统计数据和高级计费分析(包括详细数据导出)。我们还提供了一个管理 API,允许您将团队、用户和计费管理集成到您现有的内部工具和服务中。

微信图片_20240802161354.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章