中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻

HelloKitty 2024-03-01 17:20

扫一扫 在手机阅读、分享本文

2357

本文由 新智元 撰写/授权提供,转载请注明原出处。

文章来源于:新智元

作者:新智元

今天,这张图在 AI 社区热转。

它列举了一众文生视频模型的诞生时间、架构和作者机构。

1.png

毫不意外,谷歌依然是视频模型开山之作的作者。不过如今 AI 视频的聚光灯,全被 Sora 抢去了。

2.gif

同时,自曝996作息时间表的 OpenAI 研究员 Jason Wei 表示——

「Sora 是一个里程碑,代表着视频生成的 GPT-2 时刻。」

3.png

对于文字生成领域,GPT-2 无疑是一个分水岭。2018 年 GPT-2 的推出,标志着能够生成连贯、语法正确的文本段落的新时代。

当然,GPT-2 也难以完成一篇完整无误的文章,会出现逻辑不一致或捏造事实的情况。但是,它为后续的模型发展奠定了基础。

在不到五年内,GPT-4 已经能够执行串联思维这种复杂任务,或者写出一篇长文章,过程中并不会捏造事实。

而今天,Sora 已经也意味着这样的时刻。

4.png

它能创作出既有艺术感又逼真的短视频。虽然还不能创作出长达 40 分钟的电视剧,但角色的一致性和故事性已经非常引人入胜!

Jason Wei 相信,在 Sora 以及未来的视频生成模型中,保持长期一致性、近乎完美的逼真度、创作有深度的故事情节这些能力,都会逐渐成型。

5.gif

Sora 会颠覆好莱坞吗?它离电影大片还有多远?

好莱坞知名导演 Tyler Perry 在看到 Sora 生成的视频后,大为震惊,决定撤掉自己亚特兰大工作室耗资 8 亿美元的扩建计划。

因为以后拍摄的大片中,可能不需要找取景地,或者搭建实景了。

6.png

所以,Sora 会颠覆电影产业吗?Jason Wei 表示,它就像现在的 GPT-4 一样,可以作为一种辅助工具提升作品质量,所以距离专业的电影制作还有一段距离。

而现在,视频和文本的最大区别就是,前者的信息密度较低,所以在视频推理等技能的学习上,就会需要大量的算力和数据。

因此,高质量视频数据的竞争会非常激烈!就像现在各家都在争抢高质量的文本数据集。

7.png

8.png

另外,将视频与其他信息模式结合起来,作为学习过程的辅助信息将极为关键。

并且在未来,拥有视频处理经验的 AI 研究人员会变得非常抢手!不过,他们也需要像传统的自然语言处理研究者那样,适应新的技术发展趋势。

没有中间物理模型,但已具备革命性

OpenAI 的 TikTok 账号,还在不断放出 Sora 的新作品。

Sora 离好莱坞大片距离还有多远?让我们来看看这个电影中经常出现的场景——瓢泼大雨中,一辆车在夜色中飞速穿过城市街道。


9.gif

A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives

再比如,Sora 生成的工地上,叉车、挖掘机、脚手架和建筑工人们也都十分逼真。

并且,它还拍出了微型摄影的效果,让一切都看起来像一个缩影。


10.gif

当然,仔细看,画面还会存在一些问题。

比如一个人会突然分裂成好几个人。

11.gif

或者,一个人忽然变成了另一个。

12.gif

AI 公司创始人 swyx 总结说,根本原因还是因为 Sora 没有中间物理模型,这完全是 LeCun 所提世界模型的对立面。

13.png

不过,它依然为电影制作流程创造了质的飞跃,大大降低了成本。

虽然 Runway 可以实现类似功能,但 Sora 将一切都提升到了一个新的水平。

以下是 Sora和 Pika、Runway Gen-2、AnimateDiff 和 LeonardoAI 的比较。

人人都能拍自己的电影


在不久的将来,或许我们每个人都可以在几分钟内生成自己的电影了。

比如,我们可以用 ChatGPT 帮忙写出剧本,然后用 Sora 进行文字转视频。在未来,Sora 一定会突破 60s 的时间限制。

18.png


想象一下,在你的脑海里拍出一部从未存在过的电影,是什么感觉

或者,我们可以用 Dall-E 或者 Midjourney 生成图像,然后用 Sora 生成视频。

19.png

D-ID 可以让角色的嘴部、身体动作和所说的台词保持一致。

20.gif


此前风靡全网的《哈利波特》巴黎世家时尚大片

ElevenLabs,可以为视频中的角色配音,增强视频的情感冲击力,创造视觉和听觉叙事的无缝融合。

做自己的大片,就是这么简单!

可惜的是,Sora 的训练成本大概要千万美元级别。

去年 ChatGPT 发布后,一下子涌现出千模大战的盛况。而这次 Sora 距离诞生已有半个月了,各家公司仍然毫无动静。

中国公司该如何复刻 Sora?

恰恰在最近,华人团队也发布了非常详细的 Sora 分析报告,或许能给这个问题一些启发。

华人团队逆向工程分析 Sora


最近,来自理海大学的华人团队和微软副总裁高剑峰博士,联合发布了一篇长达 37 页的分析论文。

通过分析公开的技术报告和对模型的逆向工程研究,全面审视了 Sora 的开发背景、所依赖的技术、其在各行业的应用前景、目前面临的挑战,以及文本转视频技术的未来趋势。

其中,论文主要针对 Sora 的开发历程和构建这一「虚拟世界模拟器」的关键技术进行了研究,并深入探讨了 Sora 在电影制作、教育、营销等领域的应用潜力及其可能带来的影响。

21.png

论文地址:https://arxiv.org/abs/2402.17177


项目地址:https://github.com/lichao-sun/SoraReview

如图 2 所示,Sora 能够表现出精准地理解和执行复杂人类指令的能力。

而在制作能够细致展现运动和互动的长视频方面,Sora 也取得了长足的进展,突破了以往视频生成技术在视频长度和视觉表现上的限制。这种能力标志着 AI 创意工具的重大飞跃,使得用户能将文字叙述转化为生动的视觉故事。

研究人员认为,Sora 之所以能达到这种高水平,不仅是因为它能处理用户输入的文本,还因为它能理解场景中各个元素复杂的相互关系。

22.png

如图 3 所示,过去十年里,生成式计算机视觉(CV)技术的发展路径十分多样,尤其是在 Transformer 架构成功应用于自然语言处理(NLP)之后,变化显著。

研究人员通过将 Transformer 架构与视觉组件相结合,推动了其在视觉任务中的应用,比如开创性的视觉 Transformer(ViT)和Swin Transformer。

与此同时,扩散模型在图像与视频生成领域也取得了突破,它们通过 U-Net 技术将噪声转化为图像,展示了数学上的创新方法。

从 2021 年开始,AI 领域的研究重点,便来到了那些能够理解人类指令的语言和视觉生成模型,即多模态模型。

随着 ChatGPT 的发布,我们在 2023 年看到了诸如 Stable Diffusion、Midjourney、DALL-E 3 等商业文本到图像产品的涌现。

然而,由于视频本身具有的时间复杂性,目前大多数生成工具仅能制作几秒钟的短视频。

在这一背景下,Sora 的出现象征着一个重大突破——它是第一个能够根据人类指令生成长达一分钟视频的模型,其意义可与 ChatGPT 在 NLP 领域的影响相媲美。

23.png

如图 4 所示,Sora 的核心是一个可以灵活地处理不同维度数据的 Diffusion Transformer,其主要由三个部分组成:

1. 首先,时空压缩器会把原始视频转映射到潜空间中。

2. 接着,视觉 Transformer(ViT)模型会对已经被分词的潜表征进行处理,并输出去除噪声后的潜表征。

3. 最后,一个与 CLIP 模型类似的系统根据用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。在经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。

24.png

数据预处理

- 可变的持续时间、分辨率和高宽比


如图 5 所示,Sora 的一大特色是它能够处理、理解并生成各种大小的视频和图片,从宽屏的 1920x1080p 视频到竖屏的 1080x1920p 视频,应有尽有。

25.png

如图 6 所示,与那些仅在统一裁剪的正方形视频上训练的模型相比,Sora 制作的视频展示了更好的画面布局,确保视频场景中的主体被完整捕捉,避免了因正方形裁剪而造成的画面有时被截断的问题。

26.png

Sora 对视频和图片特征的精细理解和保留,在生成模型领域是一个重大的进步。

它不仅展现了生成更真实和吸引人的视频的可能性,还突出了训练数据的多样性对生成式AI取得高质量结果的重要性。

- 统一的视觉表征


为了有效处理各种各样的视觉输入,比如不同长度、清晰度和画面比例的图片和视频,一个重要的方法是把这些视觉数据转换为统一的表征。这样做还有利于对生成模型进行大规模的训练。

具体来说,Sora 首先将视频压缩到「低维潜空间」,然后再将表征分解成「时空patches」。

- 视频压缩网络


如图 7 所示,Sora 的视频压缩网络(或视觉编码器)的目标是降低输入数据的维度,并输出经过时空压缩的潜表征。

技术报告中的参考文献显示,这种压缩技术是 VAE 或矢量量化-VAE(VQ-VAE)基础上的。然而,根据报告,如果不进行图像的大小调整和裁剪,VAE 很难将不同尺寸的视觉数据映射到一个统一且大小固定的潜空间中。

针对这个问题,研究人员探讨了两种可能的技术实现方案:

27.png

1. 空间 patches 压缩

这一过程需要将视频帧转换成固定大小的 patches,与 ViT 和 MAE 模型采用的方法相似(如图8所示),然后再将其编码到潜空间中。

通过这种方式,模型可以高效地处理具有不同分辨率和宽高比的视频,因为它能通过分析这些 patches 来理解整个视频帧的内容。接下来,这些空间 Token 会按时间顺序排列,形成空间-时间潜表征。

28.png

2. 空间-时间 patches 压缩

这种技术包含了视频数据的空间和时间维度,不仅考虑了视频画面的静态细节,还关注了画面之间的运动和变化,从而全面捕捉视频的动态特性。利用三维卷积是实现这种整合的直接而有效的方法

29.png

- 潜空间 patches

在压缩网络部分还有一个关键问题:在将 patches 送入 Diffusion Transformer 的输入层之前,如何处理潜空间维度的变化(即不同视频类型的潜特征块或 patches 的数量)。

根据 Sora 的技术报告和相应的参考文献,patch n' pack(PNP)很可能是一种解决方案。

如图 10 所示,PNP 将来自不同图像的多个 patches 打包在一个序列中。

在这里,patch 化和 token 嵌入步骤需要在压缩网络中完成,但 Sora 可能会像 Diffusion Transformer 那样,进一步将潜在的 patch 化为 Transformer token。

30.png

- Diffusion Transformer

31.png

建模

- 图像 Diffusion Transformer

DiT 和 U-ViT 是最早将视觉 Transformers 用于潜在扩散模型的工作之一。与 ViT 一样,DiT 也采用多头自注意力层和点卷积前馈网络,交错一些层归一化和缩放层。

此外,DiT 还通过自适应层归一化(AdaLN)并增加了一个额外的 MLP 层进行零初始化,这样初始化每个残差块为恒等函数,从而极大地稳定了训练过程。

U-ViT 将所有输入,包括时间、条件和噪声图像 patches,都视为 token,并提出了浅层和深层 Transformer 层之间的长跳跃连接。结果表明,U-ViT 在图像和文本到图像生成中取得了破纪录的 FID 分数。

类似于掩码自编码器(MAE)的方法,掩码扩散 Transformer(MDT)也在扩散过程中加入了掩码潜模型,有效提高了对图像中不同对象部分之间上下文关系的学习能力。

如图 12 所示,MDT 会在训练阶段使用侧插值进行额外的掩码 token 重建任务,以提高训练效率,并学习强大的上下文感知位置嵌入进行推理。与 DiT 相比,MDT 实现了更好的性能和更快的学习速度。

在另一项创新工作中,Diffusion Vision Transformers(DiffiT)采用了时间依赖的自注意力(TMSA)模块来对采样时间步骤上的动态去噪行为进行建模。

此外,DiffiT 还采用了两种混合分层架构,分别在像素空间和潜空间中进行高效去噪,并在各种生成任务中实现了新的 SOTA。

32.png

- 视频 Diffusion Transformer

由于视频的时空特性,在这一领域应用 DiT 所面临的主要挑战是:

(1)如何从空间和时间上将视频压缩到潜空间,以实现高效去噪;

(2)如何将压缩潜空间转换为 patches,并将其输入到 Transformer 中;

(3)如何处理长距离的时空依赖性,并确保内容的一致性。

Imagen Video 是谷歌研究院开发的文本到视频生成系统,它利用级联扩散模型(由 7 个子模型组成,分别执行文本条件视频生成、空间超分辨率和时间超分辨率)将文本提示转化为高清视频。

如图 13 所示,首先,冻结的 T5 文本编码器会根据输入的文本提示生成上下文嵌入。随后,嵌入信息被注入基础模型,用于生成低分辨率视频,然后通过级联扩散模型对其进行细化,以提高分辨率。

33.png

Blattmann 等人提出了一种创新方法,可以将 2D 潜扩散模型(Latent Diffusion Model, LDM)转换为视频潜扩散模型(Video Latent Diffusion Model, Video LDM)。

34.png

语言指令跟随

模型指令调优旨在增强 AI 模型准确跟随提示的能力。

为了提高文本到视频模型跟随文本指令的能力,Sora 采用了与 DALL-E 3 类似的方法。

该方法涉及训练一个描述性字幕生成模型,并利用该模型生成的数据进一步微调。

通过这种指令调优,Sora 能够满足用户的各种要求,确保对指令中的细节给予精确的关注,进而生成的视频能够满足用户的需求。

提示工程

- 文本提示

文本提示对于指导 Sora 等文本到视频模型,制作既具有视觉冲击力,又能精确满足用户创建视频需求至关重要。

这就需要制作详细的说明来指导模型,以效弥补人类创造力与 AI 执行能力之间的差距。

Sora 的提示涵盖了广泛的场景。

最近研究工作,如 VoP、Make-A-Video 和 Tune-A-Video 等,都展示了提示工程如何利用模型的 NLP 能力来解码复杂指令,并将其呈现为连贯、生动和高质量的视频叙事。

如图 15 所示经典 Sora 演示,「一个时髦的女人走在霓虹灯闪烁的东京街头...... 」

提示中,包含了人物的动作、设定、角色出场,甚至是所期望的情绪,以及场景氛围。

就是这样一个精心制作的文本提示,它确保 Sora 生成的视频与预期的视觉效果非常吻合。

提示工程的质量取决于对词语的精心选择、所提供细节的具体性,以及对其对模型输出影响的理解。

35.png

- 图像提示

图像提示就是要给生成的视频内容和其他元素(如人物、场景和情绪),提供一个视觉锚点。

此外,文字提示还可以指示模型将这些元素动画化,例如,添加动作、互动和叙事进展等层次,使静态图像栩栩如生。

通过使用图像提示,Sora 可以利用视觉和文本信息将静态图像转换成动态、由叙事驱动的视频。

在图 16 中,展示了 AI 生成的视频「一只头戴贝雷帽、身穿高领毛衣的柴犬」、「一个独特的怪物家族」、「一朵云组成了 SORA 一词」,以及 「冲浪者在一座历史悠久的大厅内乘着巨浪」。

这些例子展示了通过 DALL-E 生成的图像提示 Sora 可以实现的功能。

36.png

- 视频提示

视频提示也可用于视频生成。

最近的研究,如 Fast-Vid2Vid 表明,好的视频提示需要具体,且灵活。

37.gif

这样既能确保模型在特定目标(如特定物体和视觉主题的描述)上获得明确的指导,又能在最终输出中富有想象力的变化。

例如,在视频扩展任务中,提示可以指定扩展的方向(时间向前或向后)和背景或主题。

在图 17(a)中,视频提示指示 Sora 向后延伸一段视频,以探索原始起点的事件。

(b)所示,在通过视频提示执行视频到视频的编辑时,模型需要清楚地了解所需的转换,例如改变视频的风格、场景或氛围,或改变灯光或情绪等微妙的方面。

(c)中,提示指示 Sora 连接视频,同时确保视频中不同场景中的物体之间平滑过渡。

37.png

Sora 对各行业的影响

最后,研究团队还针对 Sora 可能在电影、教育、游戏、医疗保健和机器人领域产生的影响做了预测。

38.png

随着以 Sora 为代表的视频扩散模型成为前沿技术,其在不同研究领域和行业的应用正在迅速加速。

这项技术的影响远远超出了单纯的视频创作,为从自动内容生成到复杂决策过程等任务提供了变革潜力。

电影

视频生成技术的出现预示着电影制作进入了一个新时代,用简单的文本中自主制作电影的梦想正在变为现实。

研究人员已经涉足电影生成领域,将视频生成模型扩展到电影创作中。

比如使用 MovieFactory,利用扩散模型从 ChatGPT 制作的脚本中生成电影风格的视频,整个工作流已经跑通了。

MobileVidFactory 只需用户提供简单的文本,就能自动生成垂直移动视频。

39.gif

而 Sora 能够毫不费力地让用户生成效果非常炸裂的电影片段,标志着人人都能制作电影的时刻来临了。

这会大大降低了电影行业的准入门槛,并为电影制作引入了一个新的维度,将传统的故事讲述方式与人工智能驱动的创造力融为一体。

这些 AI 的影响不仅仅是让电影制作变得简单,还有可能重塑电影制作的格局,使其在面对不断变化的观众喜好和发行渠道时,变得更加容易获得,用途更加广泛。

机器人

人们都说,2024 年是机器人元年。

正是因为大模型的爆发,再加上视频模型的迭代升级,让机器人进入了一个新时代——

生成和解释复杂的视频序列,感知和决策能力增强。

尤其,视频扩散模型释放了机器人新能力,使其能够与环境互动,并以前所未有的复杂度和精确度执行任务。

将 web-scale 扩散模型引入机器人技术,展示了利用大规模 LLM 增强机器人视觉和理解能力的潜力。

比如,在 DALL-E 加持下的机器人,能够准确摆好餐盘。

40.gif

另一种视频预测新技术——潜在扩散模型(Latent diffusion model。

它可以通过语言指导,让机器人能够通过预测视频中的动作结果,来理解和执行任务。

40.png

此外,机器人研究对环境模拟的依赖,可以通过视频扩散模型——能创建高度逼真的视频序列来解决。

这样一来,就能为机器人生成多样化的训练场景,打破真实世界数据匮乏所带来的限制。

研究人员相信,将Sora等技术整合到机器人领域有望取得突破性发展。

利用Sora的强大功能,未来的机器人技术将取得前所未有的进步,机器人可以无缝导航并与周围环境进行互动。

另外,对于游戏、教育、医疗保健等行业,AI视频模型也将为此带来深刻的变革。

41.png

最后,好消息是,Sora现在虽然还没有开放功能,但我们可以申请红队测试。

42.png

从申请表中可以看出,OpenAI 正在寻找以下认知科学、化学、生物、物理、计算机、经济学等领域的专家。

43.png

符合条件的同学,可以上手申请了!

参考资料:

https://twitter.com/_jasonwei/status/1762930762180161795

https://arxiv.org/abs/2402.17177

微信图片_20240222160346.png

微信图片_20240207151541.png

1706509567_pic_real.png

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章