Sora刷屏三天：挖来谷歌的人才，用着谷歌的技术，抢走谷歌的热搜

HelloKitty • 2024-02-20 15:47

扫一扫在手机阅读、分享本文

2194

本文由新硅NewGeek 撰写/授权提供，转载请注明原出处。

文章来源于：新硅NewGeek

作者：董道力

编辑：张泽一

硅基君这几天可算是被 OpenAI 的视频生成模型 Sora 狠狠的刷了一通屏。

明明还没有正式开放，但在国内外社交平台上，几乎每一个 Sora 放出的 Demo 视频都能被翻来覆去讨论。

大家对 Sora 的崇拜，甚至到了拿一个上古时代的互联网经典视频出来，都说它是 Sora 生成的，还要贴心的配上一个简单的 Prompts。

在没有人关注的小角落里，谷歌发布的 Gemini 1.5 PRO 没能溅起一点水花。

有人猜测，OpenAI 如此匆忙的发布 Sora 的演示视频，就是为了向世界证明 OpenAI 才是 AI 行业的领先公司，因为就在几小时前，谷歌才发布了 Gemini 1.5 PRO。

从热度上来看，谷歌输的一塌糊涂。

当然，和以往一样，OpenAI 发布的 Sora，目前只针对部分科学家和艺术家开放，普通人想用到Sora话不知道要什么时候了。

但这一点也不影响全网对Sora的热烈讨论，Sora发布后的48小时内，科技大佬、卖课的、炒股的、创业的都“疯了”。

首先是科技大佬们对 Sora 发表了自己的看法。

360 总裁周鸿祎认为，Sora 意味着 AGI 实现将从 10 年缩短到两三年。OpenAI 的 Sora 可以吊打 Pika 和 Runway，原因在于人才密度。OpenAl 利用它的大语言模型优势，把 LLM 和Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力等等。

Meta 首席 AI 科学家杨立昆并不怎么看好 Sora，他在 twitter 上表示一个 AI 模型可以生成逼真的视频，但并不代表这个 AI 可以理解世界。

与周鸿祎和杨立昆的长篇大论不同，马斯克简单明了：人类要完蛋了。

股民们在 OpenAI 发布 Sora 后，感觉下一个 ai 风口就在眼前，有机构连夜盘点了国内视频生成相关的公司，甚至出现了 Sora 概念股。

与股民的热情不同，一些影视从业人员表示，自己的工作岌岌可危。

据蓝鲸财经报道，中国香港青年导演朱智立表示“它（Sora）对电影行业的影响只是一个时间问题，因为它已经把画面做到非常真实、有细节，包括一个女人在东京街头的画面，连脸上的雀斑都能做到非常真实。”

“Sora 对宣传片、广告片的影响会更大”朱智立觉得“电影还有剧本、情节、台词等复杂因素，而在广告、宣传片行业，冲击可能会更快到来。如果提示词可以细节到分镜，那 AI 不仅仅是帮助导演画分镜和视觉参考图了，而是直接可以做成更高效的动态分镜预览，或者等技术更成熟时可以直接用来做成影视作品。”

无论是科技大佬的分析预判，还是股民的热情，影视从业者的担心，硅基君都表示理解，但唯一不合理的就是，Sora 刚发布，连排队内测都没开启，OpenAI 还没靠 Sora 赚到钱，就有人开始卖课了？

技术来来去去，卖铲子永不过时。

话说回来，Sora 之所以能引起广泛的讨论，原因在于它生成的视频质量真的太好了。为什么 Sora 效果那么好，技术上有什么特别的吗？根据 OpenAI 发布的 Sora 技术白皮书，我们可以略知一二。

先上一个大瓜，Sora 的视频生成模型框架，很可能是谷歌 DeepMind 之前的论文成果。

简单来说，Sora 模型效果很好的关键在于，OpenAI 训练的时候，将扩散模型（diffusion model）和 transformer 相结合。

OpenAI 训练 GPT 这类大语言模型的时候，把句子拆分成 tokens，放到 transformer 进行训练。在 Sora 中，OpenAI 将不同尺寸、分辨率的视频拆分成 patch，把 patch 当作 tokens 放到 transformer 进行训练。训练完成后再通过解码，把 tokens“渲染成”人们可以看得懂的像素。