Sora“满月”了，但不止一个AI在新生

HelloKitty • 2024-03-18 17:31

扫一扫在手机阅读、分享本文

5670

本文由甲子光年撰写/授权提供，转载请注明原出处。

文章来源于：甲子光年

作者：赵健

今天，距离 Sora 发布刚好一个月。这一个月时间可能是科技史上最密集的 AI 动态发布月。

在 AI 算力层，英伟达独孤求败，市值突破了 2.2 万亿美元，一跃成为全球市值第三大科技公司，仅次于微软与苹果。

但仍然有源源不断的挑战者出现，Groq、Cerebras 都在近期发布了最新的AI芯片。他们会对英伟达构成威胁吗？

在 AI 生成视频领域，Sora 开启了 AI 视频的“Midjourney 时刻”，多模态模型元年开启，比人们预期的时刻提前了至少半年。

在大语言模型层，除了 OpenAI 没有发布大的产品更新之外，它的一众竞争对手，从大厂的谷歌、苹果，到 AI 独角兽 Anthropic、Mistral、Inflection，都发布了最新代的大模型。

在 AI 应用层，人们期待的 AI 原生“super app”似乎还没有出现。A16z 近期刚刚公布 AI 应用 Top 100，ChatGPT 仍然牢牢占据首位。

而且，A16z 发现，与 2023 年 9 月发布的报告相比，榜单上超过 40% 的公司都是新公司。

具身智能是过去一个月最热门的 AI 落地方向，英伟达成立了具身智能实验室，并且投资了 Figure AI。Figure AI 的首款人形机器人产品，在演示 Demo中已经可以实现端到端的自然语言交互。

今天也刚好是 GPT-4 发布一周年。但与去年 GPT-4 发布所带来的一整年的热度相比，人们对 Sora 的热情似乎消退的更快。

一方面是因为 Sora 没有公测，一切讨论都仅限于官方的几十个视频与没有技术细节的技术报告，另一方面是因为大家对于 AI 冲击的感受阈值在变高，变得更加理性。

大模型改变了很多，但目前为止没有改变的更多。对待大模型的态度，人们也被分成了技术信仰派与市场信仰派。

没有人能准确预测行业的变化，但通过记录与了解行业正在发生的信息，可以帮助我们更好地做出判断。

以下是「甲子光年」汇总的 Sora 发布一个月以来发生的重要 AI 事件。

AI 算力

Lambda 完成 3.2 亿美元 C 轮融资

2 月 16 日，人工智能云服务提供商 Lambda 获得了 3.2 亿美元的 C 轮融资，用于构建基于 GPU 的服务，提供由数千个英伟达加速器组成的人工智能训练集群。

该轮融资由多家风险投资基金领投，包括 B Capital、SK Telecom、T. Rowe Price Associates, Inc.，以及现有投资者 Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta 和 Gradient Ventures 等。

Lambda 正准备部署“数以万计”的英伟达 GPU，包括目前最顶级的 H100 Hopper 加速器以及英伟达即将推出的 G200 GPU 加速器，后者的性能将是 H100 的两倍。Lambda 还希望部署英伟达的混合 GH200 CPU/GPU 超级芯片。

英伟达首次公开目前最快 AI 超算：搭载 4608 个 H100 GPU

2 月 18 日，英伟达首次向外界公布了其最新的面向企业的 AI 超级计算机 Eos，同时也是英伟达目前速度最快的 AI 超级计算机。

Eos 共配备了 4608 个英伟达 H100 GPU，同时还配备了 1152 个英特尔 Xeon Platinum 8480C 处理器（每个 CPU 有 56 个内核）。Eos 还采用了英伟达 Mellanox Quantum-2 InfiniBand 技术，数据传输速度高达 400 Gb/s，对训练大型 AI 模型和系统扩展至关重要。

英伟达公布数据显示，在最新的全球 Top500 超级计算机当中，Eos 位居全球第九，其峰值性能更是达到了 188.65 Peta FLOPS。

三星电子在硅谷成立新团队，开发通用人工智能芯片

2 月 20 日消息，知情人士透露，三星电子已在硅谷成立新团队，开发通用人工智能芯片。据悉，谷歌前开发人员 Woo Dong-hyuk 将领导该团队。

Groq 发布 LPU，推理速度较英伟达 GPU 提高十倍

2 月 23 日，Groq 推出了一款全新的 AI 芯片 LPU，宣称做到了“地表最强推理”——在 Groq 上运行大模型的推理速度，较英伟达 GPU 提高 10 倍，而成本只有其十分之一。

Groq 的芯片采用成熟的 14nm 制程，搭载了 230MB 的 SRAM 来保证内存带宽，片上内存带宽达到了 80TB/s。在算力层面，Gorq 芯片的整型（8 位）运算速度为 750TOPs，浮点（16 位）运算速度则为 188TFLOPs。

Groq 成立于 2016 年，由前谷歌员工 Jonathan Ross 创立。他曾发明了驱动谷歌机器学习软件的张量处理单元（TPU），这两项技术当时为 AlphaGo 提供了重要的技术支撑。

字节跳动发布万卡集群系统 MegaScale 论文

2 月 23 日，字节跳动发布万卡集群论文，展示了构建和部署 MegaScale 的设计、实施和工程经验，这是一个用于训练超过 1 万个 GPU 规模的大型语言模型生产系统。

在 12288 个 GPU 上训练 175B LLM 模型时，MegaScale 实现了 55.2% 的模型 FLOP 利用率 (MFU)，与 Megatron-LM 相比，MFU 提高了 1.34 倍。

中国为人工智能初创企业提供 14 万至 28 万美元的“算力券”

为了支持蓬勃发展的人工智能行业，中国向初创企业提供“算力券”，来降低企业数据中心运营相关的成本。至少有 17 个中国城市政府承诺提供这些补贴，代金券价值从 14 万美元到 28 万美元不等。

Meta 推出 2 个 24K GPU 集群

3 月 13 日，Meta 披露了有关万卡集群的硬件、网络、存储、设计、性能和软件的详细信息，并声称到 2024 年底将完成 350000 个英伟达 H100 GPU 集群的构建。届时，其整个资源池计算能力将相当于近 600000 个 H100。

Cerebras 发布了世界上最快的芯片，拥有 4 万亿个晶体管

3 月 14 日，Cerebras 发布了大尺寸芯片 WSE-3，包含 4 万亿个晶体管，在相同的功耗和价格下，WSE-3 的性能是之前记录保持者 WSE-2 的两倍。

相比 H100 GPU ，WSE-3 大了 57 倍，内核数量增加了 52 倍，芯片内存增加了 800 倍，内存带宽增加了 7000 倍，结构带宽增加了 3700 倍以上。这些都是芯片实现高性能的基础。

WSE-3 是专为训练业界最大的 AI 模型而打造的，基于 5 纳米制程、将为 Cerebras CS-3 人工智能超级计算机提供动力，通过 90 万个人工智能优化的计算核心，提供每秒 125 petaflops 峰值 AI 性能（1 petaflops 是指每秒 1 万亿次浮点运算）。

AI 模型

大语言模型

谷歌发布多模态模型 Gemini 1.5 Pro，支持 100 万 token 上下文

2 月 16 日，谷歌发布多模态大模型 Gemini 1.5 Pro，建立在谷歌 Transformer 和 MoE 架构的领先研究之上。

通过一系列机器学习创新，谷歌增加了 Gemini 1.5 Pro 的上下文窗口容量，并实现在生产中运行高达 100 万个 Token，远超 32k 的 Gemini 1.0、128k 的 GPT-4 Turbo、200k 的 Claude 2.1。

Gemini 1.5 Pro 可以一次性处理大量信息——包括 1 小时的视频、11 小时的音频、超过 30000 行代码的代码库或超过 700000 个单词。

谷歌发布开源大模型 Gemma

2 月 22 日，谷歌推出了“开源”大模型 Gemma。Gemma 采用了与 Gemini 相同的技术，由谷歌 DeepMind 与谷歌其他团队共同合作开发，在拉丁文中意为 “宝石”。

Gemma 包括两种权重规模的模型：Gemma 2B 与 Gemma 7B，每种规模都有预训练与指令微调版本。同时，谷歌还推出了一系列工具，旨在支持开发者创新，促进合作，并指导如何负责任地使用 Gemma 模型。

Mistral 获微软投资，发布旗舰模型 Mistral Large

2 月 27 日，Mistral AI 发布 Mistral Large 旗舰模型，并且推出对标 ChatGPT 的对话产品：Le Chat。

Mistral Large 达到了顶级的推理能力。它可以用于复杂的多语言推理任务，包括文本理解、转换和代码生成。

据 Mistral AI CEO Arthur Mensch 透露，开发这款新模型的成本不到 2000 万欧元（约合 2200 万美元）。

同时，微软宣布与 Mistral AI 达成深度合作，并对其进行了投资。未来，Mistral AI 直接将模型资源放在微软云当中售卖，成为 OpenAI 之后第二家在微软 Azure 云平台上提供商业 AI 模型的公司。

Anthropic 发布 Claude 3 模型，全面超越 GPT-4

3 月 4 日，Anthropic 推出了最新的 Claude 3 大模型。

Claude 3 模型家族包括三种最先进的型号：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet 和 Opus 分别指“俳句、十四行诗、音乐艺术大作”。

Opus 和 Sonnet 现已可在 claude.ai 中使用，而 Claude API 现已在 159 个国家/地区广泛使用。Haiku 在 3 月 15 日正式推出。

Anthropic 由 OpenAI 前高管创立，投资者包括谷歌、Salesforce、亚马逊、高通等科技巨头，估值超过 150 亿美元。

零一万物发布并开源 Yi-9B，代码数学综合能力全面增强

3 月 6 日，零一万物开源了 Yi-9B 模型，是目前 Yi 系列模型中代码和数学能力最强的模型。

Yi-9B 的实际参数为 8.8B，与 Yi 系列其他模型一样，默认上下文长度是 4K tokens。Yi-9B 是在 Yi-6B （使用了 3.1T tokens 训练）的基础上，使用了 0.8T tokens 进行继续训练，使用截止至 2023 年 6 月的数据。

Inflection.ai 发布 Inflection-2.5，升级对话模型 Pi

3 月 7 日，Inflection.ai 推出 Inflection-2.5，这是升级后的内部模型，它将原始能力与标志性个性和独特的同理心微调结合在一起。Inflection-2.5 现已向所有 Pi 用户开放，可通过网页、iOS、Android 或桌面应用程序使用。

Inflection-2.5 接近 GPT-4 的性能，但仅使用了 40% 的计算量用于训练。每天有 100 万活跃用户和每月 600 万活跃用户与 Pi 交换了超过 40 亿条消息。

Inflection.ai 的大模型通过微软 Azure、CoreWeave 上对用户提供服务。

马斯克宣布 xAI 本周开源 Grok

马斯克在去年成立了大模型公司 xAI，并与去年 11 月发布 AI 聊天机器人 Grok。

Grok 基于 Grok-1 大模型，开发大约花了四个月的时间（包括 2 个月的训练），上下文长度为 8192，训练数据截至 2023 年第三季度。Grok 可以提供生成文本、代码、邮件、信息检索等功能。Grok 对所有 X Premium+ 订阅用户开放，每月费用为 16 美元。

3 月 11 日，马斯克宣布本周开源 Grok。在这一帖子下面，有网友回复“OpenAI 也应该这么做”。马斯克则回复该评论称：“OpenAI 是个谎言。”

苹果发布 300 亿参数大语言模型 MM1

3 月 14 日，苹果发布了一个 300 亿参数的多模态大模型 MM1。

通过细致的消融研究，作者们发现，对于大规模多模态预训练，混合使用图像标题、交错的图像-文本数据和纯文本数据对于在多个基准测试中实现最先进的少次学习结果至关重要。此外，图像编码器、图像分辨率和图像标记数量对性能有显著影响，而视觉-语言连接器的设计相对不那么重要。

研究结果表明，通过扩大模型规模，构建的MM1模型系列在预训练指标上达到了最先进的水平，并在一系列多模态基准测试中的监督微调后取得了有竞争力的性能。大规模预训练使得MM1具备了上下文学习、多图像推理等吸引人的特性，能够进行少次链式思维提示。

多模态模型

Meta 发布非生成路线视频模型 V-JEPA

2 月 15 日，Meta 公开发布视频联合嵌入预测架构 (V-JEPA) 模型。Meta 的副总裁兼首席人工智能科学家 Yann LeCun 表示：“V-JEPA 是朝着更深入地理解世界迈出的一步，因此机器可以实现更通用的推理和规划。”

他于 2022 年提出了最初的联合嵌入预测架构 (JEPA)。“我们的目标是建立先进的机器智能，它可以像人类一样学习，形成周围世界的内部模型，以便有效地学习、适应和制定计划，以完成复杂的任务。”

Stability AI 发布 Stable Diffusion 3，与 Sora 同源技术

2 月 22 日，Stability AI 在早期预览版中发布了 Stable Diffusion 3，这是 Stability AI 最强大的文本到图像模型，在多主题提示、图像质量和拼写能力方面的性能得到了极大提高。Stable Diffusion 3 模型套件目前的参数范围为 800M 到 8B。

3 月 5 日，Stability AI 公布了 Stable Diffusion 3 的技术论文，采用了一种新的多模态 DiT（MMDiT，Multimodal Diffusion Transformer）模型架构，对图像与语言表示使用单独的权重集。

谷歌 Gemini 文生图功能紧急关闭

2 月 22 日，谷歌宣布将暂停 Gemini 的人物图像生成，努力解决与 Gemini 图像生成功能相关的最新问题；将很快重新发布改进版本。

此前，Gemini 在图片中生成了各种性别、种族的人群，即使生成的结果与史实不符，例如以“美国开国元勋华盛顿”为主题的图片中，出现了妇女和有色人种。

3 月 2 日，50 岁的谷歌联合创始人谢尔盖·布林在加州的“AGI 之家”与企业家们进行了交谈，谈及此事时评价道：“我们在图像生成方面搞砸得很彻底，我认为这主要由于没有进行彻底的测试。出发点是好的，但结果却让很多人感到沮丧。”

谷歌发布基础世界模型 Genie

2 月 27 日，谷歌发布了生成式 AI 的全新范式——生成式交互环境（Genie，Generative Interactive Environments）。

Genie 是一个 110 亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境。GenieAI 是一个利用互联网视频训练的基础世界模型，可以从合成图像、照片甚至素描中生成无限多的可玩（可控制动作的）世界。它的使用范围广泛，可以用于从图像或文本生成整个互动世界，是训练未来通用 AI 代理的有利工具。

蚂蚁集团推出百灵大模型

2 月 28 日，蚂蚁集团推出 20 亿参数多模态遥感基础模型 SkySense，其论文已被世界计算机视觉顶会 CVPR 2024 接收。

数据显示，SkySense 在 17 项测试场景中指标均超过国际同类产品，这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense 可用于地貌、农作物观测和解译等，有效辅助农业生产和经营。

潞晨科技复现 Sora 并开源

3 月 4 日，国内著名开源团队 Colossal-AI（潞晨科技旗下）根据 Sora 技术报告、VideoGPT、扩散 Transformers 等资料，复现了 Sora 模型架构方案并将其开源——Open-Sora。

值得一提的是，Colossal-AI 还将复现成本降低了 46%，同时将模型训练输入序列长度扩充至 819K patches。目前，Open-Sora 在 Github 超过 1200 颗星。

Midjourney 封禁 Stability AI：恶意爬取数据，致服务器瘫痪 24 小时

3 月 7 日，Midjourney 封禁 Stability AI 引发了一场关于数据安全和道德责任的争议。事件起因于 Stability AI 的数据收集工程师对 Midjourney 服务器发起了恶意攻击，导致其服务中断24小时。尽管 Stability AI CEO Emad 声称公司并未授权此行为，但 Midjourney 决定暂时封禁其员工使用其软件。

华为诺亚发布 0.6B 文生图模型 PixArt-Σ，可直出 4K 图像

3 月 10 日，华为诺亚方舟实验室联合多个研究机构共同开发的项目，推出了一款名为 PixArt-Σ 的扩散变换器模型（DiT）。

PixArt-Σ 的进步有两个方面。一是高质量训练数据，引入了更高质量的图像数据，配合更精确和详细的图像标题；二是高效的 token 压缩：在 DiT 框架内提出了一个新的注意力模块，能够压缩键和值，显著提高效率，从而支持超高分辨率图像的生成。

这些改进使得 PixArt-Σ 在模型大小（0.6B 参数）上远小于现有的文本到图像扩散模型，如 SDXL（2.6B 参数）和 SD Cascade（5.1B 参数），同时在图像质量和用户提示遵循能力上都有了显著提升。此外，PixArt-Σ 生成 4K 图像的能力，为电影和游戏等行业的高质量视觉内容制作提供了强大支持。

Pika 推出自动生成音效功能 Sound Effects

3 月 11 日，Pika 发布了全新的功能 Sound Effects，实现了视频和音效的无缝生成。用户可以通过简单的操作，通过描述 prompt 或让 AI 自动生成音效，为视频增添更多氛围。

Sound Effects 的操作十分简单，用户只需一个 prompt 或简单的描述就能生成音效，使视频更加生动。通过选择不同的音效，用户可以为视频增添各种声音，从车鸣声到烟花声，音效都与视频画面高度匹配。此外，用户还可以在生成视频后，针对单个视频添加音效，提升视频质量和趣味性。

Midjourney 发布角色一致性新功能

3 月 12 日，Midjourney 推出了一项新功能，使得在生成多张图片时，能够保持同一人物的一致性。通过使用“-cref”（角色参考）标签，可以保留输入图片中的角色特征，使得在不同场景中的脸部特征、体型和服装保持一致。

此外，Midjourney 还提供了“-cw”标签，用户可以通过这个标签来调整与指定图片的相似程度，从而微调角色的样貌。

腾讯联合清华、港科大推出图生视频大模型“Follow Your Click”

3 月 15 日，腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

据了解，本联合项目组中的腾讯混元大模型团队，正在持续研究和探索多模态技术，拥有行业领先的视频生成能力。此前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造原创视频《江山如此多娇》，生成中国大美河山的精美视频片段，展示出了较强的内容理解、逻辑推理和画面生成能力。

生物模型

前 Google DeepMind 科学家联手创建 Biooptimus，构建首个通用生物学大模型

2 月 20 日，总部位于巴黎的 Biooptimus 在获得 3500 万美元的种子轮融资，其使命是建立第一个用于生物学的通用人工智能基础模型。这一新的开放科学模型将把不同规模的生物学与生成人工智能连接起来——从分子到细胞、组织和整个生物体。

Bioptimus 联合了一个由 Google DeepMind alumni 和 Owkin 科学家组成的团队，其中 AI 生物技术初创公司 Owkin 本身就是一家法国独角兽，他们将利用 AWS 计算和 Owkin 的数据生成功能，并访问来自全球领先学术医院的多模态患者数据。

AI 应用

具身智能

英伟达成立具身智能实验室 GEAR

2 月 24 日，英伟达宣布成立通用具身智能体研究实验室 GEAR，标志着英伟达正式入局具身智能领域的研究，加速人工智能具身化进程。

机英伟达 GEAR 实验室的联合创始人 Jim Fan 博士在 X 平台上表示：“我们相信，在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像 iPhone 一样无处不在。我们正在构建基础智能体：一个具有通用能力的 AI，可以在许多虚拟和现实的世界中学习如何熟练地行动。2024 年将是属于机器人、游戏 AI 和模拟的一年。

Jim Fan 还补充道：“我们有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟。我们团队可能是全球最有钱的具身智能实验室。”

特斯拉人形机器人更新，步态达到最快

2 月 25 日，特斯拉人形机器人 Optimus 发布更新，达到了有史以来最快的步态，速度约为 0.6m/s，比去年 12 月速度提升了 30% 以上。

Optimus 改善了前庭系统、足部轨迹和地面接触逻辑，升级了运动规划器，并减少了机器人的循环延迟。Optimus 整体上更加稳定、更加自信——即使在转弯时也是如此。此外，还添加了轻微的躯干和手臂摆动。

Figure AI 宣布获得 6.75 亿美元融资，估值达到 26 亿美元

2 月 29 日，具身智能公司 Figure 宣布获得 6.75 亿美元融资，估值达到 26 亿美元。投资方包括微软、OpenAI 创业基金、英伟达、杰夫·贝索斯（通过Bezos Expeditions）、Parkway Venture Capital、英特尔、Align Ventures。

Figure AI 还与 OpenAI 签署了合作协议，为人形机器人开发下一代人工智能模型。Figure 将利用 Microsoft Azure 进行人工智能基础设施、培训和存储。

3 月 13 日，Figure AI 的第一款产品 Figure 01 发布 Demo 视频，能够实现端到端的机器人指令操作。其中，OpenAI 模型提供高级视觉和语言智能，图形神经网络提供快速、低级、灵巧的机器人动作。

伯克利团队发布具身智能论文，用训练 GPT 的方法训练人形机器人

3 月 3 日，伯克利团队发布论文，名为《Humanoid Locomotion as Next Token Prediction》，论文的核心思想，就是把 OpenAI 训练 ChatGPT 时所用到的“预测下一个 token”的思路，用在人形机器人的运动控制中。

该模型是一个通过自回归预测训练的 causal transformer（因果转换器）。

该模型即使只在 27 小时的行走数据上训练，也能转移到现实世界，并且能够泛化到训练期间未见过的命令，比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

谷歌发布具身智能机器人 RT-H

3月4日，谷歌DeepMind团队发布论文，发布了最新版的 RT 机器人——RT-H，它能通过将复杂任务分解成简单的语言指令，再将这些指令转化为机器人行动，来提高任务执行的准确性和学习效率。

举例来说，给定一项任务，如「盖上开心果罐的盖子」和场景图像，RT-H 会利用视觉语言模型（VLM）预测语言动作（motion），如「向前移动手臂」和「向右旋转手臂」，然后根据这些语言动作，预测机器人的行动（action）。

这个行动层级（action hierarchy）对于提高机器人完成任务的准确性和学习效率非常有帮助，使得 RT-H 在一系列机器人任务中的表现都优于 RT-2。

AI+应用

Perplexity 接近敲定新融资，估值或翻番至 10 亿美元

3 月 5 日消息，知情人士透露，旨在挑战谷歌网络搜索主导地位的 AI 初创公司 Perplexity 即将敲定一笔新的融资交易，公司估值有望达到近 10 亿美元，较几个月前的最新融资估值大约翻番。

Perplexity 利用先进的 AI 模型为搜索查询提供直接答案，而不是提供网站链接列表，这也是谷歌正在研究的。知情人士称，Perplexity 最近的年收入超过 1000 万美元。根据数据服务公司 Similarweb 的初步估计，该公司移动和桌面应用程序的访问量在 2 月增长 8.6%，达到约 5000 万用户。

两个月前，Perplexity 刚刚宣布已筹集到 7400 万美元资金，得到亚马逊前 CEO 贝索斯和风险投资公司 Institutional Venture Partners 的支持。这笔交易对这家初创公司的估值为 5.2 亿美元。

华人团队打造第一个 AI 软件工程师 Devin

3 月 13 日，Cognition AI 在 X 上推出了全球首个 AI 软件工程师 Devin。

Devin 是一个自主代理（Autonomous Agent），掌握全栈技能，能自主学习不熟悉的技术，端到端地构建和部署应用程序，自己改 bug，甚至还能训练和微调自己的 AI 模型。

在 SWE-bench 基准测试中，它无需人类帮助，可解决 13.86% 的问题。相比之下，GPT-4 只能处理 1.74% 的问题，且都需要人类提示告知处理哪些文件。据介绍，Devin 已经成功通过一家 AI 公司的面试，并在 Upwork 上完成了实际工作。

此前，Cognition AI 已经获得了彼得·蒂尔的 Founders Fund 基金领投的 2100 万美元 A 轮融资。另外根据彭博社记者报道，前 Twitter 高管 Elad Gil 也参与了对 Cognition AI 的投资。

DeepMind 发布 3D 通用智能体 SIMA

3 月 13 日，Google DeepMind 发布了适用于 3D 虚拟环境的通用智能体（A generalist AI agent for 3D virtual environments），名字命名为“SIMA”。

SIMA 是一个针对游戏和3D虚拟环境的通用智能体。这标志着首次有一个智能体能够证明它可以遵循自然语言指令，在大量游戏世界中执行广泛任务，类似于人类的游玩方式。

SIMA 仅依赖于 3D 环境提供的图像和用户给出的自然语言指令。通过鼠标和键盘的输出，它在 600 项技能上进行评估，这些技能涵盖了导航和对象交互等领域——例如“向左转”或“砍倒树”。

A16z 发布消费级 AI 应用 Top 100

3 月 13 日，A16z 发布了最新的全球 AI 产品的 Top100 榜单，分为网络产品与移动产品。16z 发现，与 2023 年 9 月发布的报告相比，榜单上超过 40% 的公司都是新公司。

AI融资

传月之暗面获得 8 亿美元融资

据知情人士对外透露，月之暗面近期获得了 8 亿美元新融资，其中阿里投资了 7.9 亿美元，砺思资本投资 1000 万美元。

小红书、美团原计划战略投资，但阿里将月之暗面估值提高了 50%，并且重仓持股 40%，所以后者主动退出了。

本轮融资后，月之暗面估值已达约 23 亿美元，为国内大模型领域的头部企业之一。

宇树科技完成近 10 亿元 B2 轮融资

2 月 23 日，智能机器人公司宇树科技 Unitree 宣布完成近 10 亿元 B2 轮融资，本轮投资方包括美团、金石投资、源码，老股东深创投、中网投、容亿、敦鸿和米达钧石跟投。宇树科技 Unitree 表示，资金将主要用于产品研发，业务拓展以及团队搭建等方面。

宇树科技创立于 2016 年 8 月。宇树科技创始人王兴兴 2013 年开始硕士在读期间，通过改造无人机使用的盘式无刷电机，并针对其自研了小尺寸电机驱动器，并基于此，自研整机机械结构和控制算法等等，独自设计开发了他的第一款产品——XDog。不同于当时波士顿动力机器人的高成本液压驱动技术路线，XDog 采用了高性能纯电驱动，开创了全球低成本高性能足式机器人技术方案的先河。

香港大模型公司 Weitu AI 完成天使轮融资，估值一亿美元

2 月 25 日，多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资，估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。

据了解，该公司目前刚刚成立，超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。同时，目前的团队成员中也包括了数位长期活跃在人工智能多模态领域的研究专家，以及去年初曾率队研发国内首批中文大语言模型代表之一的技术负责人。

多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资

3 月 1 日，杭州联汇科技股份有限公司（以下简称 “联汇科技”）宣布完成新一轮数亿元战略融资，投资方由中国移动产业链发展基金中移和创投资、前海方舟（前海母基金管理机构）旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。

据悉，本轮融资将主要用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展，扩大其在运营商、能源电力、媒体等国家基础行业与重点细分市场的领先优势。

新旦智能完成了千万级别的天使轮融资

3 月 4 日，总部位于深圳的 AI 初创公司新旦智能完成了千万级别的天使轮融资，由全球化人工智能企业 APUS 与 AI 行业资深投资人周弘扬联合投资。

相比国内其他大模型公司，新旦智能略显年轻，但创始团队阵容却颇为豪华：这是一支由清华、伯克利、腾讯、Meta 等顶尖学术与工程界精英组成的团队，成员包括全球顶尖的开源 AI 社区知名开发者、资深腾讯云架构师等。

传阿里领投 Minimax 新一轮融资

3 月 5 日，《科创板日报》报道称通用大模型初创项目 MiniMax 正在进行新一轮大规模融资，阿里为其中的核心领投方。

五源资本投资了一家华人 AI 视频团队

3 月 6 日，两位 Deepmind 的校友 Yishu Miao 和 Ziyu Wang 公开发布了他们的视频生成工具 Haiper，其底层有自己的 AI 模型。

Haiper 在由 Octopus Ventures 领投、5Y Capital 参与的种子轮融资中筹集了 1380 万美元。在此之前，像 Geoffrey Hinton 和 Nando de Freitas 这样的天使投资者帮助该公司在 2022 年 4 月筹集了 540 万美元的前种子轮融资。

爱诗科技完成亿级人民币 A1 轮融资，发布视频大模型

3 月 11 日，爱诗科技完成亿级人民币 A1 轮融资，本轮融资由国内一线投资机构达晨财智领投，光源资本担任独家财务顾问。

爱诗科技创立于 2023 年 4 月，专注解决 AI 视频大模型及应用，海外版产品 PixVerse 于 2024 年 1 月正式上线，目前已是全球用户量最大的国产 AI 视频生成产品，并搭建了稳定的创作者生态，目前已处于全球视频生成产品第一梯队，国内版（爱诗视频大模型）也于今日上线内测。本轮融资将用于人才建设和资源储备，进一步巩固爱诗科技产品技术护城河。

多模态大模型创企生数科技完成新一轮数亿元融资

3 月 12 日，生数科技宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱 AI、老股东 BV 百度风投和卓源亚洲继续跟投，华兴资本担任独家财务顾问。据生数科技介绍，本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

生数科技成立于 2023 年 3 月，致力于图像、3D、视频等原生多模态大模型的研发。公司核心团队来自清华大学人工智能研究院，此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

微信图片_20240222160346.png