视频大模型激战180天：Sora“高冷隐身”，国产巨头狂卷落地

HelloKitty • 2024-07-11 17:53

扫一扫在手机阅读、分享本文

1727

本文由雷科技撰写/授权提供，转载请注明原出处。

文章来源于：雷科技

作者：雷科技AI硬件组

2024 年上半年，AI 视频生成领域迎来了一系列令人瞩目的突破。

今年 2 月 OpenAI 发布了全新的文生视频模型 Sora，率先开启了 AI 视频生成的 ChatGPT 时刻；3 月 26 日，字节跳动旗下剪映 Dreamina 开放内测；4 月 27 日，AI 企业生数科技发布了号称国内首个自研视频大模型的 Vidu；6 月 6 日，快手可灵 AI 正式开放内测......

AI 视频生成赛道在全球的高度关注下催生出一个又一个新技术成果，与此同时，国内外类 Sora 创企们也开始活跃起来。仅仅在今年上半年，爱诗科技、生数科技、Pika 等 AI 企业就完成了多轮亿元级别的融资，成立于 2018 年的老牌 AI 视频生成企业 Runway 也传出新一轮的融资计划。

海量资金加持下的 AI 视频生成赛道必定会给我们带来更多惊喜，不过在此之前，借着这个年中时刻，小雷带大家来一起回顾下今年上半年的 AI 视频大模型产品，看看各家大模型发布了哪些新产品，它们在产品方向又有了什么新变化。

Sora 持续隐身，

快手可灵 AI 火爆全网

1、Sora：引领视频生成技术路线创新

说实话，说实话，将 Sora 置于产品队列中讨论并不合适，因为 Sora 至今也没有对公众开放，只有业界和设计界的极少数人受邀使用。但考虑到Sora的出现推动了 AI 视频生成技术在全球范围内的迈进，为了方便大家理解，小雷认为还是有必要对其进行回顾。

在 OpenAI 发布 Sora 模型之前，代表着行业领先水平的是 Runway、Pika Labs，以及谷歌 VideoPoet 这一批老牌 AI 视频生成玩家。它们没有引起全球关注的最大原因是生成视频的技术难度非常高。

图源：Sora

制作视频不仅需要依赖于先进的算法和强大的计算能力，还必须解决包括一致性、连贯性、物理合理性以及逻辑合理性在内的多种复杂问题。这些因素共同确保了视频内容的流畅性、真实性和可信度。

Runway 们早期主要依赖于 GAN（生成式对抗网络）和 VAE（变分自编码器）两种模型进行视频生成，之后演变出两种技术路线，分别是扩散模型和 Transformer 模型，两者各具优劣，可以说是各有千秋。

而根据 OpenAI 在发布 Sora 当天给出的技术解释，Sora 正是扩散模型和 Transformer 模型的结合。虽然在 Sora 发布之前，结合方案已成为业内普遍尝试的方向，但 OpenAI 作为首个发布 Demo 的企业，已经在 AI 视频生成领域确立了行业地位。

按照目前情况来看，OpenAI 丝毫没有公开 Sora 的意思。在竞争日益加剧的 AI 视频生成领域，Sora 的持续隐身会给其他竞争对手带来追赶甚至超越的机会。

2、快手可灵 AI：国产 AI 国外爆火，高频更新值得期待

在 2024 年世界人工智能大会（WAIC）上，快手高级副总裁于越介绍了可灵 AI 的部分产品更新以及最新数据。作为一款刚刚发布一个月的产品，可灵 AI 的更新可谓是相当频繁。产品从内测时的 App 端，扩展到了 Web 端；功能也从文生视频，陆续更新了图生视频、视频续写、多尺寸选择、高画质版、首尾帧控制、镜头控制等新功能。

据快手披露的数据显示，可灵大模型上线一个月以来，累计申请用户数 50 万+，开通用户数 30 万+，生成视频数 700 万。同时，可灵 AI 凭借大幅度运动的合理性和物理世界特性的高度模拟能力在国内外社交媒体和技术社区受到广泛讨论。

图源：可灵AI生成

不少海外科技爱好者、专业从业者体验后纷纷表达了对中国 AI 的看好。美国著名创业投资公司 Y Combinator CEO 在海外社交媒体平台转发并称赞了可灵生成的 Demo；英国开源人工智能公司 Stability AI 前 CEO Emad Mostaque 则表示：“中国的 AI 技术有自己的优势。”

自从 OpenAI 发布 ChatGPT 开始，大众普遍认为 OpenAI 代表着 AIGC 领域的领先水平。哪怕 Sora 迟迟未上线，类似的观点也没有太大改变。但作为内测体验过可灵 AI 的亲历者，小雷可以明确表示可灵 AI无论是生成时长、效率，还是视频质量，都是目前 AI 视频生成产品的第一梯队，尤其是真实风格场景上的表现令人印象深刻，许多 AIGC 视频如果不细看，甚至无法发现是 AI 生成。

在 Sora 未正式发布前，外界很难判断孰优孰劣，但快手可灵 AI 的出现让我们看到了在 AI 视频生成领域超越的可能。此外，快手方面还宣布其首部 AIGC 短剧《山海》将在本月上映，期待可灵 AI 给我们带来新的惊喜。

3、字节即梦 AI：进步明显，AIGC 短剧带来行业新机遇

同样试水 AIGC 短剧的还有即梦 AI。在今年的上海国际电影节上，抖音联合博纳影业出品制作的 AIGC 科幻短剧集《三星堆：未来启示录》正式亮相。

纯 AI 制作是该剧的最大亮点，借助包括 AIGC 剧本创作、概念及分镜设计、图像到视频转换、视频编辑和媒体内容增强等十种 AIGC 技术，或将解锁传统影视公司与 AIGC 技术产品合作、发展的新路径。

图源：即梦AI生成

即梦 AI 是字节旗下的一站式 AIGC 内容专业创作平台，支持文生视频和图生视频，提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等 AI 编辑功能。

今年 5 月，剪映 Dreamina 正式更名为即梦 AI，小雷也在第一时间进行了体验。相比于成熟的 AI 作图，即梦 AI 当时的 AI 视频水平是有些让人失望的，文生视频的自然语言理解能力没有问题，但视频质量确实有待提高，特别是真实物理特性方面，即梦还需要继续努力。

而图生视频由于给 AI 框定了方向，省去了想象组合步骤，视频质量要比文生视频好得多，但视频主体大幅运动的情况下，还是会出现闪现、扭曲的问题。

当然小雷体验的只不过是即梦 AI 的最初版本，经过一段时间的发展，即梦 AI 已经达到能生成 AIGC 短剧的水平，进步之大让人惊喜。小雷期待已久的故事创作模式相信不久就会正式对外开放，届时或许普通用户也能创作自己的 AIGC 连续剧。

4、Runway：Gen-3 重磅更新，演示效果不输 Sora

作为老牌 AI 视频生成厂商，Runway 的视频生成模型 Gen-1 和 Gen-2 在初期收获了不少好评，随着竞争对手陆续推出搭载最新视频生成模型产品，Runway 因为模型落后，在很长一段时间内饱受争议。

今年 6 月，Runway 连夜发布了基于最新视频生成模型 Gen-3 生成的各种演示视频，电影级的画面细节直接震惊了全体网友。7 月 2 日，Runway 宣布 Gen-3 向所有用户开放使用，小雷原本也想尝试一番，但每月 12 美元的会员费把我劝退了，因此我也只能从演示视频画面来分析一二。

官方展示视频时长为 10 秒，人物生成中的人物面部细节和情感营造方面比较细腻，场景、风景生成中的元素、光影没有太大的违和感。比如这个视频，女子乘坐车辆穿过明暗交替的街道，外部光源照射在面部的变化十分自然，车外穿梭的车辆也没有出现断层等违和场景。

图源：Runway生成

官方公布视频的效果称得上是惊艳。虽然不知道正式使用的效果如何，但就目前来说，个人认为不输Sora。

5、Dream Machine：视频质量波动大，使用成本高

6 月 12 日，初创公司 Luma AI 发布了新的 AI 视频生成模型 Dream Machine（造梦机器），并且面向公众开放测试。很快，不仅官方放出的一系列样片，社交网络上还出现了一大堆由网友通过“造梦机器”生成的视频。

坦率地讲，“造梦机器”官方视频给小雷的第一印象还是挺惊艳的，除了人物主体和背景的一致性，最让人惊讶的可能是光照的变化，包括亮度的变化也符合基本的物理规律。

但在实际网友创作和分享的内容中，即便是在那些相当惊艳的少数作品中，你也能看到或多或少的错误。小雷也试着用“造梦机器”创作了一段视频，实际效果还是比较糟糕的：人物诡异的倒退，在背后拿着伞的怪异举动，还有飞起来的雨伞。

图源：Luma AI生成

“造梦机器”每月为普通用户提供 30 次免费生成机会，除了免费用户，“造梦机器”还提供三档付费选项，包括 29.99 美元的标准档、99.99 美元的专业档以及 499.99 美元的高级档，区别是每个月可以生成视频的次数。

对于普通用户来说，这些定价比 Runway 的 12 美元还离谱，或许官方目标群体是那些通过“造梦机器”创作视频在 TikTok 上赚钱的创作者吧。

更长、更真实、更多元，

AI 视频不断进化

首先，今年 AI 视频最大的突破之一，就是生成视频长度的延长。要注意的是，小雷指的是模型极限区域的时长，而不是消费端时长。之前 Runway 和 Pika 都只能生成出 3-4 秒的视频，对于行业和用户来说，实在是太短了，根本无法满足长素材的需求。

小雷梳理了已对外公布的大模型视频生成时长，其中 Sora 为 60 秒，Vidu 为 32 秒。快手就厉害了，它提供的视频续写功能支持连续多次续写视频内容，在保证视频一致性的前提下，最长生成 3 分钟视频，在视频时长这块，快手可以说是遥遥领先。

其次，是视频大模型产品输入方式的多元化。用户不再局限于文字输入，而是可以选择图像、视频作为输入，模型会根据用户的输入来生成视频。比如，用户可以上传一张静态图，而视频大模型则会根据图片制作视频。

最后，是人们对 AI 视频最大的期待：足够真实。上文有提到，生成视频的技术难度远比生成图片高。此前，AI 生成视频有两个硬伤。一是如何让生成视频符合物理规律，通常出现在人与人、或者人与物体之间进行复杂交互时；二是时间的连贯性，也就是让 AI 记住视频中的人和物体，即使被暂时挡住或移出画面，之后再出现的时候也能按照物理逻辑地让视频保持连贯性。

这两点在今年得到了很好的改善，比如这个快手可灵 AI 生成的视频，当饺子进入小孩嘴里，部分饺子被完全遮挡，当再出现饺子时，吃饺子留下的咬痕和被咬后的饺子形态也能保持自然地继续运动，保持了时间和物体的连贯性。