HelloKitty • 2025-03-17 11:13
871
本文由 雷科技 撰写/授权提供,转载请注明原出处。
以下文章来源于:雷科技
编辑:失魂引
机器人行业的 DeepSeek-R1,被智元机器人开发出来了?
华为天才少年计划的经历,带给了「稚晖君」彭志辉极高人气,也让他创办的智元机器人获得了行业顶级流量。但若技术实力与流量不匹配,最终这些流量难免化为舆论攻击——就像日前涉嫌营销用力过猛的 Manus 一样。
好在,智元机器人一次又一次展现出了自己的实力,日前其推出全球首个通用具身智能基座大模型智元启元大模型(Genie Operator-1,以下简称:GO-1),并计划第一季度末对核心用户开源,允许用户将其部署到自家机器人上。
(图源:智元机器人)
在 DeepSeek-R1 面世之后,全球多个 AI 公司将旗下的大模型开源,并承认开源方能加速推动AI行业进步。GO-1 模型现阶段开源程度不如采用MIT开源协议的 DeepSeek-R1,但此前智元机器人已将用于训练 GO-1 模型的 AgiBot World 数据集、工具链、预训练模型统统开源,未来很可能将 GO-1 核心代码和模型开源。
VLM+MoE,
智元带领机器人奔向 AI 时代
模型开源智元机器人方能有机会成为机器人行业的 DeepSeek,但开源却不代表一定能够获得媲美 DeepSeek 的地位,一切终究要实力说话。
智元机器人开发的 GO-1 模型基于 Vision-Language-Latent-Action(ViLLA)架构,由多模态大模型(VLM)和混合专家(MoE)组合而成。VLM 为具身基座大模型的主干网络,继承了上海人工智能实验室开发的开源大模型 InternVL-2B 的权重,可实现场景感知和语言理解,并利用互联网上的视频和图片数据训练自身。该模型还能融合多视角视觉、力觉信号,赋予自身通用场景理解能力,从而实现更多复杂的操作。
MoE 则分为隐式规划器和动作专家两部分,隐式规划器可利用互联网上的人类或跨本体视频,基于 VLM 的中间层输出潜在动作令牌(Latent Action Tokens),形成规划链(Chain of Planning),实现通用的动作理解和规划。动作专家可借助仿真或真机数据,优化潜在动作令牌的生成和输出效率,并获得高精度动作的执行能力。
(图源:智元机器人)
其具备的动态调节机制,还能实现图像描述、OCR 解析等任务效率的提升,降低数据标注成本和优化资源分配。
基于 ViLLA 架构,GO-1 模型构建了数字金字塔,最基础的互联网纯文本、图文数据,可帮助机器人理解通用知识和场景;第二层的大规模人类或跨本体视频,可帮助机器人学习人类或其他本体的动作操作模式;更高一层的仿真数据则能够增强机器人的泛用性;最后由真机示教数据帮助机器人训练精准动作执行能力。
在模型架构之外,用于训练模型的数据同样重要。最新版的 AgiBot World 包含 1001552 条轨迹,覆盖了家庭、零售、工业、餐厅、办公五大关键场景,是目前全球最大的机器人真机示教数据集。
不同于普通轨迹不超过 5 秒的时间,AgiBot World 中的轨迹跨度可达 30 秒左右,部分轨迹甚至长达 2 分钟。智元机器人官方数据显示,AgiBot World 所采用的预训练模式,相较谷歌 Open X-Embodiment 训练策略平均性能提升 30%,相较现有机器人大模型完成复杂操作的平均成功率提高了 32%。
(图源:智元机器人)
与传统机器人模型相比,GO-1 模型在架构、数据、预训练模式等方面均有所改进,提升了资源利用效率和模型的能力,能够大幅降低机器人训练和执行操作所需的成本,作用与 DeepSeek-R 模型较为相似。二者相比,GO-1 模型差的可能只有开源模式。
NVIDIA CEO 黄仁勋曾预言,两三年内机器人行业将迎来重大突破,未来会像汽车一样普及。在机器人技术从生涩走向成熟的今天,智元机器人也在不断推动产品量产,日前 1000 台机器人量产下线,已面向全球开源的灵犀 X1 也完成了首批交付,灵犀 X2 于 3 月 11 日在上海发布,功能更加强大。在未来机器人行业的竞争中,GO-1 模型或将成为智元机器人的核心竞争力之一。
降低门槛,
GO-1 要做下一个 DeepSeek-R1?
阿加犀智能科技有限公司 CEO 孙晓刚表示,按照目前机器人行业的发展进程,三五年内机器人的价格降到 5 万元以内没有问题。
5 万元以内的机器人,已处于普通消费者可以接受的范围,但购买的前提是其功能足够强大,可以帮助我们处理一些生活琐事。决定机器人能力的关键,在于硬件和智能两方面,GO-1 模型要做的就是提高机器人的智能程度。
ViLLA 架构赋予了 GO-1 模型通过人类视频学习的能力,互联网上庞大的视频资源,都将成为机器人进化的「养料」,让机器人能够更高效地完成复杂操作。
其次,小样本快速泛化特性令 GO-1 模型可以在数据量极少,甚至零样本的情况下,泛化到新场景,无需庞大的数据,从而大幅减少训练成本,降低机器人行业的门槛。
最关键的是,GO-1 属于「一脑多形」通用机器人模型,能够在两足、轮足等不同类型机器人之间迁移和快速适配。不同类型的机器人可能需要完全不同的 AI 大模型,用于适配机器人硬件的工作模式,是开发机器人企业的难点之一。GO-1 模型打破常规,可以轻松适配各种机器人,无疑能够进一步降低机器人模型的开发、适配成本。
(图源:智元机器人)
另外,GO-1 模型还具备持续进化能力,日常工作中遇到的问题,数据都会回流至系统,用于机器人的训练和功能升级。
尽管 GO-1 模型仅在本月底面向核心用户开源,但从功能特性不难看出,GO-1 已经把「我会开源」写在了脸上,整个大模型几乎完全面向提升能力、降低成本两方面。小样本快速泛化和一脑多形能力,令实力底蕴不足的机器人企业,也能借助 GO-1 模型快速开发出适合机器人产品的 AI 系统,并借助国内日渐成熟的机器人供应链实现产品量产。
与新能源汽车行业类似,机器人时代的到来是一次机遇,比亚迪、小鹏、赛力斯等车企已纷纷入场,还有许多知名度不高的小企业加入,究竟哪些企业能够成长为头部品牌,暂时无法确定。赫赫有名的宇树科技有望成为机器人行业的比亚迪,开发 GO-1 模型的智元机器人则拥有成为「蔚小理」的机会。
同样的,机器人行业的发展之路,也会有许多企业掉队。不同的是,新能源汽车行业工业实力的重要性大于 AI 能力,而机器人领域 AI 能力的重要性至少持平工业实力,甚至更胜一筹。而且在机器人行业发展过程中,供应链将不断整合,硬件会收敛,机器人最终比拼的是智能化。
(图源:智元机器人)
正如智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青所言,对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。
智元机器人推出的远征、灵犀、绝尘等多品类机器人,无法发挥 GO-1 模型的全部价值,将其开源并允许其他企业修改、部署、商用,方能最大限度挖掘 GO-1 模型的价值,并起到推动机器人行业发展的作用。
向核心用户开源模型只是开始,未来 GO-1 模型很可能面向全行业开源,增强其他机器人企业的实力。开源后的 GO-1 模型,才能获得 DeepSeek-R1 的地位,成为行业发展的推动者。智元机器人自身也是硬件产品开发公司,借助 GO-1 的声望,或将进一步打响知名度,并提高产品销量,而非如现在一般,提到智元机器人和彭志辉,大家首先想到的是华为天才少年计划出身的身份。
扫码关注公众号
获取更多技术资讯