“国产Sora”Vidu全球上线，中国视频大模型支棱起来了？

HelloKitty • 2024-08-01 17:21

扫一扫在手机阅读、分享本文

1613

本文由智能Pro 撰写/授权提供，转载请注明原出处。

文章来源于：智能Pro

作者：大月亮

这大半年来，小雷已经记不清自己体验过多少视频生成大模型产品了，但有一个名词已经深深印在我的脑海中。因为国内每当有一个新产品出现，就会被无数媒体冠以“国产 Sora”的头衔，所以许多不常关注大模型的小伙伴经常云里雾里，搞不清谁才是真正的“国产 Sora”。

如果从发布时间角度来看，生数科技联合清华大学在 4 月底发布的视频大模型 Vidu 才是 Sora 全球首个挑战者，也是严格意义上的首个“国产 Sora”。

时隔 3 个月，Vidu 终于迎来了正式上线，全面开放文生视频、图生视频两大功能。用户无需申请即可注册体验。生数科技表示，Vidu 目前提供 4s 和 8s 两种时长选择，分辨率最高达 1080P。

图源：生数科技

小雷认为就算不看生成视频的效果，Vidu 也实现了对 Sora 的超越，毕竟它是一款能用的产品，而不是 Demo。

Vidu 体验：

生成效率加分，拟真度有待优化

官方 4 月放出的生成视频中，Vidu 已经实现了相当程度的“拟真”——模拟真实世界的物理原理，以及主体的一致性，这也是 Vidu 真正对标 Sora 的底气。而这次，Vidu 带来了角色一致性（Character To Video）、动漫风格、文字与特效画面生成等特色能力。

此外，Vidu 号称拥有业界最快的实测推理速度，只需不到 30 秒即可生成一段 4 秒的视频。等待时间过长一直是影响用户体验的重灾区，小雷试过某产品苦等 2 个小时的折磨，如果 Vidu 真能保持这种生成效率，这也能体现出背后大模型从框架到算力的全链路实力。

图源：生数科技

大家最关心的视频内容方面，Vidu 同样展现出了动态性、逼真度、一致性等特点。

比如这段根据随机描述词生成的视频，展示了一个在昏暗的火车车厢中发生的故事，视频运镜与描述词完全一致，我们从人物脸部表情能感受到明显的担忧与紧张。除了人物站位和镜面没有反射人物表情外，视频基本还原了所有描述词，甚至给人一种在看谍战剧的错觉。

Vidu 生成，动图经过压缩。图源：生数科技

不过视频中突然出现的字幕和闪点让我有些绷不住，出戏感太严重了。或许 Vidu 是想通过字幕来表达角色间在交流，如果嘴部动作更加明显或许效果更佳。

类似的表现还出现在其他生成视频上，比如这段典型西部风格的人物特写，人物面部光线反射细节还是展现出了 Vidu 的功力，手部在移动过程中保持了一致性，并不像很多扩散模型一样，这一秒和下一秒的主体都可能出现明显的差异。

但还是老问题，自行蠕动的“原力”香烟和略带生硬的肢体动作给作品扣了不少印象分。

Vidu 生成，动图经过压缩。图源：生数科技

保真度方面，小雷认为这是 Vidu 下阶段考虑重点优化的部分，用比较通俗的话讲，就是背景画面与真实世界存在一定差异，有点油画风。

Vidu 生成，动图经过压缩。图源：生数科技

在人物生成上，Vidu 表现比较稳定，充分展示了它的实力，从面部表情、眨眼到抬头，都比较接近实拍镜头。虽然仍存在小瑕疵，但考虑到参与视频内容制作的难度，Vidu 算是展示出了相当不错的水平。

Vidu 生成，动图经过压缩。图源：生数科技

总的来说，虽然有快手可灵 AI 珠玉在前，但从目前体验的生成视频来看，Vidu 依然展示了极高的视频生成能力，或者说是模拟物理世界的能力。或许在生成复杂画面、保真度等方面还略微逊色于可灵 AI，但有一些镜头完全称得上可用，这已经是一个很大的进步。

此外，小雷认为 Vidu 辅助创作的设置还是相当人性化的，用户可以自定义视频内容风格（目前仅支持写实和动画），还可以后期修改内容画质和倍速。即使你的描述词太过天马行空，Vidu 也能自行优化，让大模型更好地理解描述词。

国产大模型，

一股不可忽视的东方力量

从 ChatGPT 发布到 Sora 问世，OpenAI 被无数科技爱好者、专业从业者奉为行业高标准。事实上，生数科技早在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架构，比 OpenAI 提出 DiT 架构（Sora 的底层架构）还要早。甚至因为发布时间更早，计算机视觉顶会 CVPR 2023 提前收录了清华大学的 U-ViT 论文，而以“缺乏创新”为由拒绝了 OpenAI DiT 论文。

图源：生数科技

不止是 Vidu，还有很多国产大模型也参与到全球 AI 竞争中，向外界展示了中国技术具备领先的可能。比如被美国权威技术杂志《麻省理工科技评论》评价为具有里程碑意义的快手可灵 AI。

据快手披露的数据显示，可灵大模型上线一个月以来，累计申请用户数 50 万+，开通用户数 30 万+，生成视频数 700 万。同时，可灵 AI 凭借大幅度运动的合理性和物理世界特性的高度模拟能力在国内外社交媒体和技术社区受到广泛讨论。

众多评价释放了同一信号，那就是中国大型科技公司在人工智能 (AI) 应用领域大有赶上美国同行的趋势。说实话，目前国产视频生成模型水平层次不齐，但领先者已经达到不输 Sora Demo 的程度，并且国产大模型是可以给用户使用的。

可灵 AI、即梦 AI、智谱 AI 等国产视频生成大模型产品大多采用免费、付费混合的商业模式，即普通用户免费使用基础版的视频生成功能，有更高需求的会员则可付费享受更高规格的功能。

在小雷看来，国产大模型在产品化和商业化方面是领先于海外大模型的。首先产品能用是最基础的，这点国产大模型赢麻了，基本上每个产品一推出就是全量测试。同时即梦 AI、可灵 AI 还进行了短剧等领域的合作，给视频生成模型开辟了新道路，未来肯定还会运用教育、汽车、医疗等更多场景。

其次，混合商业模式的构成能在吸引大量用户的同时，探索产品盈利的可能性。毕竟做产品不是做慈善，有盈利才能投入更多，研发更好用的功能。

例如可灵 AI 近期上线的付费会员体系，就是针对不同类别会员提供相应的专属功能服务。据了解，三档会员的价格分别为 66 元/月、266 元/月、666 元/月，能额外生成可生成 66 个、300 个或 800 个高性能 5 秒视频。会员用户还可使用高表现模式、视频延长、视频生成尾帧参考、大师视频运镜等专属功能。

图源：快手可灵AI

对于国产大模型们来说，下阶段或许会逐步细分付费体系，将资源更好地分配给用户。

海外大模型不够接地气，

Sora 带头画饼

另一边，海外大模型的迭代速度和商业模式则跟国产大模型不太相似。Sora 就不用多说了，小雷已经吐槽过很多次了，2 月发布 Demo 至今，Sora 一直在跳票。最近一次看见它的相关信息，还是网友对 SearchGPT 具象化答案的联想。

行业明星带头画饼，其他海外大模型的表现又如何呢？

6 月 12 日，Luma AI 发布了 Dream Machine（造梦机器）；7 月 2 日，Runway 宣布文生视频模型 Gen-3 向所有用户开放使用。直到今天凌晨，Runway Gen-3 才正式上线图生视频功能。与国产大模型相比，迭代速度确实有点慢了。

图源：Runway

同时，海外大模型对普通用户不够友好。Runway 最新模型 Gen-3 只有付费用户才能使用，会员费大约是每月 12 美元。

而 Dream Machine 每月为普通用户提供 30 次免费生成机会，除了免费用户，“造梦机器”还提供三档付费选项，包括 29.99 美元的标准档、99.99 美元的专业档以及 499.99 美元的高级档，区别是每个月可以生成视频的次数，或许官方目标群体是那些通过“造梦机器”创作视频在 TikTok上赚钱的创作者吧。

换句话说，海外大模型对普通用户的重视程度远不如国产大模型，国产大模型无论是产品的场景落地，还是商业模式，都更接地气。

写在最后

回想 Sora 刚发布的时候，国内除了惊叹 AI 的神奇，还有对中国 AI 发展相对落后的惋惜。

有人认为 Sora 将人类实现 AGI（通用人工智能）的时间缩短了 6- 8年还有更多人认为，Sora 的出现进一步拉大了中美在 AI 领域的差距。尽管国内大模型众多，做视频模型的也不少，却看不到一个能够追赶 Sora 的竞争对手。

在抢占 AI 制高点的过程中，对国产大模型的一个普遍判断是：处于第一梯队，但距离顶尖还存在差距。而可灵 AI、Vidu 等国产大模型的发布，至少再次证明了一切皆有可能。

现阶段的 AI 角力不再是纯技术与算力的“内卷”，而是基础设施、技术研发、应用落地、用户驱动的多向奔赴。如果说 Sora 的发布是一个开始，那我相信国产大模型的崛起是 Sora 垄断的结束。

微信图片_20240207151541.png