Sora核心作者掌舵,谷歌世界模型新团队全球招募:百万底薪起步

HelloKitty 2025-01-08 16:07

扫一扫 在手机阅读、分享本文

971

本文由 量子位 撰写/授权提供,转载请注明原出处。

文章来源于:量子位(QbitAI)

作者:衡宇

最新消息,Sora 核心作者,将领导谷歌世界模型团队!

Tim Brooks——带队 Sora 研究的两位负责人之一,也是 DALL-E 3 作者之一,刚刚发布了一条热情四溢的推特,广纳天下英才:

DeepMind 有雄心勃勃的计划,要制作大量世界模型。

向着这个使命,我开始招募一个新团队。快来加入我们吧!

1.png

Brooks 是 AI 圈子里十分耀眼的新秀,2023 年刚刚从 UC 伯克利博士毕业。

2023 年 1 月起,Brooks 开始带队研究 Sora;2024 年 2 月,Sora 初亮相。

但在去年 10 月,Brooks 突然官宣离开 OpenAI,跳槽谷歌 DeepMind。

当时,谷歌 DeepMind 的 CEO Demis Hassabis 就在该推文下回复表示,Brooks 将帮助“将世界模拟器这一长期梦想变为现实”。

2.png

现在,Brooks 真的要带队谷歌的世界模型团队了,并且是从头开始一手招募筹建。

并且,有人抓住了官宣推文中的华点:

Models,这意味着谷歌要制作的世界模型不是一个,而是很多个!

3.png

而官宣推文下面,几乎都是网友的祝福之语:


4.png

谷歌组建世界模型新团队

目前,Tim Brooks 的领英和推特自我简介都显示为:

- video gen + world sim at DeepMind

- ex-OpenAI Sora Lead

关于“video gen”,Brooks 加入谷歌 DeepMind 的时间,在广受好评的 Veo 2.0 发布之前。

a16z 的投资人曾对着 Veo 2.0 惊叹,难以置信不到一年的时间里,视频模型进展如此神速。


图片

目前,Veo 2 已经登录 VideoFX,预计明年它将进军 YouTube Shorts 等平台,为内容创作者开启全新的可能性。

而“world sim”,应该就是目前正在招募的新团队的肩上重担了。

根据 Brooks 链接的招聘页面,新团队会和谷歌旗下 Gemini、Veo 和 Genie 等团队合作,并在此基础上解决关键的新问题,将世界模型扩展到最高计算水平。

团队将致力于在构建的世界模型之上开发“实时交互生成”工具;并研究如何将世界模型们与现有的多模态模型,如 Gemini 等集成。

官方显示,谷歌世界模型团队主要招纳两种人才,均要求硕士或博士学位:

研究科学家:(美国)全职底薪范围在 136,000 美元~245,000 美元之间,加奖金、股权和福利。

研究工程师:(美国)全职底薪范围在 136,000 美元~245,000 美元之间,加奖金、股权和福利。

(注:申请岗位时可附上目标地点的具体薪资范围)

6.png

△科学家要求(左图)和工程师要求(右图)

谷歌还表示,他们相信,在视频和多模态数据上扩展预训练(划重点)是实现 AGI 的关键路径。

而世界模型将推动众多领域,如视觉推理和模拟、具身智能体的规划以及实时交互娱乐。

谷歌对世界模型的(现阶段)理解是什么?

看看去年年底发布的 Genie 2,或许可以管窥一二。

24 年 12 月 5 日,谷歌发布了 Genie 2,它是一种自回归潜空间扩散模型,在大型视频数据集上训练。

Genie 2 可以实现一张图生成无限多样的3D 游戏世界,生成的 3D 世界可响应键鼠操作,可玩、可控制。

与此前研究相比,Genie 2 拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分;游戏世界中还可以有其他 AI NPC 存在,与玩家控制的角色进行复杂交互。

7.gif

但最重要的目标,不是拿来玩——

Genie 2可用于训练和评估具身智能体,通过创建丰富多样的环境,可以生成 AI 在训练期间没见过的评估任务。

尽管这项研究仍处于早期阶段,在智能体和环境生成能力方面仍有大量改进空间,但谷歌表示:

我们相信 Genie 2 是解决在安全训练具身智能体的同时,满足实现通往 AGI 所需的广度和通用性要求。

8.gif

△Genie 2能通过prompt训练Agent打开正确的门

世界模型,下一个角逐赛点?

2024 年,AI 技术在多元方向持续突破,视频生成、世界模型、具身智能和空间智能等技术推动了人类对 AGI 的探索。

尤其在世界模型领域,许多初创公司和大型科技公司正在追逐世界模型。

也难怪乎网友在看到 Tim Brooks 广发英雄贴后,在 reddit 上发出这样的感慨:

令人惊讶的是,如果这条新闻出现在五年前,我们会惊掉下巴。

但现在,我们就像对待一个普通的星期二一样对待它。

9.png

事实上,世界模型反映了长久以来许多 AI 研究人员对 model-based RL 工作的无奈和期待:

模型不够准确,那么完全在模型里训练的强化学习效果就不好。

如果能获得准确的世界模型,就能在世界模型中反复试错,找到现实的最优决策。

据量子位智库《2024 年度 AI 十大趋势报告》,在世界模型领域,研究者们致力于开发能够模拟和理解真实世界的模型,核心在于通过学习大量数据,使模型能够自然涌现新的行为和决策能力。

10.png

Techcrunch 则盘点到,在追逐世界模型的诸多玩家中,除了谷歌这样的科技巨头,还有不少耀眼的初创玩家。

譬如李飞飞的 World Labs(虽然现在大家更多将它的目标定位于空间智能),以及 Decart、 Odyssey 等公司。

该领域普遍认为,世界模型可能能用来创建交互式媒体,如视频游戏和电影;以及运行现实模拟,如机器人/具身智能的训练环境。

目前,除了技术尚未达到心目中的理想水平,还有几道坎摆在世界模型前进之路上。

一个是版权,一些世界模型似乎是在游戏游玩剪辑片段上训练的。

那咱就不得不提谷歌世界模型新团队的最大优势了——是谁拥有 Youtube 里上亿小时的游戏视频数据,我不说。

另一个是相关内容创作从业者的反对。

不过值得一提的是,其中一些初创玩家,如 Odyssey,承诺将与3D内容领域的创意从业者合作作,而非取代他们。

暂不知道谷歌会怎么做。

One More Thing

最后,提一个网友们从谷歌世界模型新团队 JD 细则里发现的华点。

谷歌 DeepMind 写道:

We believe scaling pretraining on video and multimodal data is on the critical path to artificial general intelligence.

划重点, scaling pretraining。

而早些时候,在 NeurIPS 上,Ilya 公开宣判:

预训练时代即将终结!

11.png

虽然也可以理解为,Ilya 特指的是大语言模型的预训练时代,谷歌 DeepMind 特指的是世界模型的预训练。

但……谁知道呢,你说是不(手动狗头)。

参考链接:
[1]https://techcrunch.com/2025/01/06/google-is-forming-a-new-team-to-build-ai-that-can-simulate-the-physical-world/

[2]https://techcrunch.com/2024/10/03/a-co-lead-on-sora-openais-video-generator-has-left-for-google/

[3]https://www.linkedin.com/in/timothyebrooks/

[4]https://x.com/_tim_brooks/status/1876327325916447140

[5]https://www.reddit.com/r/singularity/comments/1hvbzyp/google_is_forming_a_new_team_to_build_ai_that_can/

微信图片_20250103163534.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章