OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步

HelloKitty 2024-02-18 17:45

扫一扫 在手机阅读、分享本文

1925

本文由 新智元 撰写/授权提供,转载请注明原出处。

文章来源于:新智元

作者:新智元编辑部

OpenAI,永远快别人一步!

像 ChatGPT 成功抢了 Claude 的头条一样,这一次,谷歌核弹级大杀器 Gemini 1.5 才推出没几个小时,全世界的目光就被 OpenAI 的 Sora 抢了去。

100 万 token 的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在 Sora 的荣光下被衬得暗淡无光,着实令人唏嘘。

这次,不过也是之前历史的重演。

1.png

为什么 ChatGPT 会提前诞生?

《这就是 ChatGPT》一书对此进行了揭秘:当时 OpenAI 管理层听说,从 OpenAI「叛逃」的前员工创立的公司 Anthropic Claude 有意提前推出 Chatbot。

管理层立马意识到这个产品潜力巨大,于是先下手为强,第一时间改变节奏,出手截胡 Anthropic。

11 月中旬,在研发 GPT-4 的 OpenAI 员工收到指令:所有工作暂停,全力推出一款聊天工具。两周后,ChatGPT 诞生,从此改变人类历史。

或许,这也就揭示了为什么一家公司可以永载史册的原因:领导者能够发现有市场潜力的新产品,全面拦截所有成功的可能性。

对于谷歌被截胡一事,网友锐评道:OpenAI 用 Sora 对抗 Gemini 发布的方式简直了,谷歌从没有受过这样的打击。

2.png

这不得不让人怀疑,OpenAI 手里是不是还攥着一堆秘密武器,每当竞争对手发布新技术,他们就放出来一个爆炸级消息。

要知道,现在才刚刚是 2024 年 2 月,想想接下来要发生的事,不免觉得毛骨悚然。

为何 Sora 掀起滔天巨浪

Sora 一出,马斯克直接大呼:人类彻底完蛋了!

3.png

马斯克为什么这么说?

OpenAI 科学家 Tim Brooks 表示,没通过人类预先设定,Sora 就自己通过观察大量数据,自然而然学会了关于 3D 几何形状和一致性的知识。

从本质上说,Sora 的技术,就是机器模拟我们世界的一个里程碑。

外媒 Decoder 直言:OpenAI 令人惊叹的视频模型处女作 Sora 的诞生,感觉就像是 GPT-4 时刻。

4.png

更有人表示,在 Sora 之中,我切实感受到了 AGI。

5.png

这也就是为什么 Sora 会在全世界掀起滔天巨浪的原因。

要了解 Sora 如此强大的能力从何而来,除了 OpenAI 官方给出的技术报告,行业大佬也进行了进一步的解读。

LeCun 转发了华人学者谢赛宁的推文,认为 Sora 基本上是基于谢赛宁等人在去年被 ICCV 2023 收录的论文提出的框架设计而成的。

6.png

而和谢赛宁一起合著这篇论文的 William Peebles 之后也加入了 OpenAI,领导了开发 Sora 的技术团队。

7.png

所以谢赛宁的对于 Sora 的技术解读,具备极高的参考价值。

8.png

谢赛宁:Sora 很厉害,不过好像是用了我的论文成果

AI 大神谢赛宁,针对 Sora 的技术报告谈了自己的看法。

9.png

项目地址:https://wpeebles.com/DiT

- 架构:Sora 应该是基于他和 Bill 之前在 ICCV 2023 上提出的以 Transformer 为主干的扩散模型(DIT)

其中,DIT=[VAE编码器+VIT+DDPM+VAE 解码器]。

根据技术报告,好像没有其他特别的设计了。

-「视频压缩网络」:似乎是一个 VAE,但训练的是原始视频数据。

在获得良好的时间一致性方面,tokenize 可能起了很重要的作用。

VAE 是一个 ConvNet。所以从技术上讲,DIT 是一个混合模型。

10.png

谢赛宁表示,他们在 DIT 项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。

这可能就是 Sora 为什么要基于 DIT 构建的主要原因。

首先,简单意味着灵活

当涉及到输入数据时,如何使模型更加灵活。

例如,在掩码自动编码器(MAE)中,VIT 帮助我们只处理可见的 patch,而忽略掉被 mask 的。

同样,Sora 可以通过在适当大小的网格中安排随机初始化的 patch 来控制生成的视频的大小。

UNet 并不直接提供这种灵活性。

猜测:Sora 可能还会使用谷歌的 Patch n‘Pack(Navit),以使 DIT 能够适应不同的分辨率/持续时间/长宽比。

其次,可扩展性是 DIT 论文的核心主题

就每 Flop 的时钟时间而言,优化的 DiT 比 UNet 运行得快得多。

更重要的是,Sora 证明了 DIT 缩放法则不仅适用于图像,现在也适用于视频——Sora 复制了 DIT 中观察到的视觉缩放行为。

猜测:在 Sora 的演示中,第一个视频的质量相当差,谢怀疑它使用的是最基础的模型。

粗略计算一下,DIT XL/2 是 B/2 模型的 5 倍 GFLOPs,因此最终的 16 倍计算模型可能是 DIT-XL 模型的 3 倍,这意味着 Sora 可能有约 30 亿个参数。

11.png

如果真的是如此,Sora 的模型规模可能没有那么大。

这可能表明,训练 Sora 可能不需要像人们预期的那样,有非常大的算力要求,所以他预测未来 Sora 迭代的速度将会很快。

12.png

进一步的,谢赛宁解释了 Sora 提供的关键的洞见来自「涌现的模拟能力」这一表现上。

在 Sora 之前,尚不清楚长期形式的一致性是否会自行涌现,或者是否需要复杂的主题驱动的其他流程,甚至是物理模拟器。

而现在 OpenAI 已经表明,虽然现在结果还不完美,但这些行为和能力可以通过端到端的训练来实现。

然而,有两个要点还不是很明确。

1. 训练数据:技术报告没有涉及训练的数据集,这可能意味着数据是 Sora 成功的最关键因素。

目前已经有很多关于游戏引擎数据的猜测。他期待包括电影、纪录片、电影长镜头等。

2. (自回归)长视频生成:Sora 的一个重大突破是生成超长视频的能力。

制作一段 2 秒的视频和 1 分钟的视频之间的差异是巨大的。

Sora 可能是通过允许自回归采样的联合帧预测来实现的,但这里最主要挑战是如何解决误差累积问题,并随着时间的推移保持质量/一致性。

OpenAI Sora 的技术,就是机器模拟我们世界的重要下一步

AI 究竟如何将静态图形转换为动态、逼真的视频?

Sora 的一大创新,就是创新性地使用了时空 patch。

通过底层训练和 patch,Sora 能够理解和开发近乎完美的视觉模拟,比如 Minecraft 这样的数字世界。这样,它就会为未来的 AI 创造出训练内容。有了数据和系统,AI 就能更好地理解世界。

13.gif

从此,我们可以解锁 VR 的新高度,因为它改变了我们看待数字环境的方式,将 VR 的边界推向了新的高度,创建出近乎完美的 3D 环境。可以在 Apple Vision Pro 或 Meta Quest 上按需与空间计算配对了。

除了谢赛宁的解读之外,AI 专家 Vincent Koc,也对此展开了详细分析。

Sora 的独特方法如何改变视频生成

以往,生成模型的方法包括 GAN、自回归、扩散模型。它们都有各自的优势和局限性。

而 Sora 引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。

Sora 所做的,是把 Diffusion 和 Transformer 架构结合在一起,创建了 diffusion transformer 模型。

于是,以下功能应运而生——

文字转视频:将文字内容变成视频 

图片转视频:赋予静止图像动态生命 

视频风格转换:改变原有视频的风格 

视频时间延展:可以将视频向前或向后延长 

创造无缝循环视频:制作出看起来永无止境的循环视频 

生成单帧图像视频:将静态图像转化为最高 2048 x 2048 分辨率的单帧视频 

生成各种格式的视频:支持从 1920 x 1080 到 1080 x 1920 之间各种分辨率格式 

模拟虚拟世界:创造出类似于 Minecraft 等游戏的虚拟世界 

创作短视频:制作最长达一分钟的视频,包含多个短片

这就好比,我们正在厨房里。

传统的视频生成模型,比如 Pika 和 RunwayML,就像照着食谱做饭的厨师一样。

他们可以做出好吃的菜肴(视频),但会受到他们所知的食谱(算法)所限。

使用特定的成分(数据格式)和技术(模型架构),它们只擅长烘焙蛋糕(短片)或烹饪意大利面(特定类型的视频)。

14.gif

而与他们不同的是,Sora 是一位基础知识扎实的新型厨师。

它不仅能照着旧食谱做菜,还能自己发明新食谱!

这位住大厨多才多艺,对于食材(数据)和技术(模型架构)的掌握十分灵活,因而能够做出各种高质量的视频。

探寻 Sora 秘密成分的核心:时空 patch

时空 patch,是 Sora 创新的核心。

15.png

它建立在 Google DeepMind 早期对 NaViT 和 ViT(视觉 Transformer)的研究之上。

16.png

论文地址:https://arxiv.org/abs/2307.06304

而这项研究,又是基于一篇 2021 年的论文「An Image is Worth 16x16 Words」。

17.png

论文地址:https://arxiv.org/abs/2010.11929

传统上,对于视觉 Transformer,研究者都是使用一系列图像 patch 来训练用于图像识别的 Transformer 模型,而不是用于语言 Transformer 的单词。

这些 patch,能使我们能够摆脱卷积神经网络进行图像处理。

18.png

然而,视觉 Transforemr 对图像训练数据的限制是固定的,这些数据的大小和纵横比是固定的,这旧限制了质量,并且需要大量的图像预处理。

19.gif

而通过将视频视为 patch 序列,Sora 保持了原始的纵横比和分辨率,类似于 NaViT 对图像的处理。

这种保存,对于捕捉视觉数据的真正本质至关重要!

通过这种方法,模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

20.png

时空patch的可视化

这种方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

这种灵活性确保了每条数据都有助于模型的理解,就像厨师可以使用各种食材,来增强菜肴的风味特征一样。

时空 patch 对视频数据详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。

从此,我们可以创建看起来逼真且符合世界物理规则的视频,人类也得以一窥 AI 创建复杂、动态视觉内容的巨大潜力。

多样化数据在训练中的作用

训练数据的质量和多样性,对于模型的性能至关重要。

传统的视频模型,是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

而 Sora 利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。

它能够重新创建像 Minecraft 这样的数字世界,以及来自 Unreal 或 Unity 等系统的模拟世界镜头,以捕捉视频内容的所有角度和各种风格。

21.gif

这样,Sora 就成了一个「通才」模型,就像 GPT-4 对于文本一样。

这种广泛的训练,使 Sora 能够理解复杂的动态,并生成多样化、高质量的内容。

这种方法模仿了在各种文本数据上训练 LLM 的方式,将类似的理念应用于视觉内容,实现了通才功能。

22.png

可变 Patches NaVit 与传统的视觉 Transformer

NaViT 模型通过将来自不同图像的多个 patch 打包到单个序列中,得到了显著的训练效率和性能提升一样。

同样地,Sora 利用时空 patch 在视频生成中实现类似的效率。

这种方法允许模型从庞大的数据集中更有效地学习,提高了模型生成高保真视频的能力,同时降低了与现有建模架构相比所需的计算量。

让物理世界栩栩如生:Sora 对 3D 和连续性的掌握

3D 空间和物体的一致性,是 Sora 演示中的关键亮点。

通过对各种视频数据进行训练,无需对视频进行调整或预处理,Sora 就学会了以令人印象深刻的精度对物理世界进行建模,原因就在于,它能够以原始形式使用训练数据。

在 Sora 生成的视频中,物体和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架,也能保持连贯性。

从此,现实不存在了,创造力和现实主义的界限被突破。

并且,Sora 为模型的可能性设立了全新的标准,开源社区很可能会掀起视觉模型的全新革命。

而现在,Sora 的旅程才刚刚开始呢,正如 OpenAI 所说,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的道路。

前方,就是 AGI 和世界模型了。

不过好在,OpenAI 员工透露说,Sora 短期内不会面世。

23.png

一位 OpenAI 员工发推表示,现在 Sora 只会在有限的范围内试用,现在放出的 demo 主要是为了获得社会大众对它能力的反应

现在,标榜要开发负责任 AGI 的 OpenAI,应该不会冒着风险给大众抛出一个潘多拉魔盒。

参考资料:

https://twitter.com/sainingxie/status/1758433679238471744

https://towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b

微信图片_20231218102300.png

微信图片_20240207151541.png

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章