斯坦福华人博士文生视频Pika 1.0爆火!4人公司估值2亿,OpenAI联创参投

HelloKitty 2023-11-29 17:56

扫一扫 在手机阅读、分享本文

1748

本文由 新智元 撰写/授权提供,转载请注明原出处。

本文来源于:新智元

作者:新智元编辑部

Runway Gen-2 最强竞品 Pika,暌违半年忽然放出大招——Pika 1.0 正式发布!

仅成立六个月,Pika 就结束了测试版,正式发布了第一个产品,能够生成和编辑 3D 动画、动漫、卡通和电影。

AI 生视频领域,又要发生大地震了。

1.png

而且,Pika 已经获得了 5500 万美元融资(估值近2亿美元),这使得这家仅有四人的初创公司,具备了和 Meta、Adobe、Stability AI 等巨头一搏的实力。

一连串投资人名单非常豪华,几乎所有 AI 领域的知名公司都参与了此轮融资,名单包括但不限于——

前 Github CEO Nat Friedman、Quora 创始人 Adam D'Angelo、OpenAI 创始成员 Karpathy、Perplexity CEO 等等,堪称是集齐了硅谷的半壁江山。

2.png

而 Pika 的诞生,是又一个从斯坦福退学、成为 CEO 的故事——

3.png

创始人郭文景(Demi Guo)和联合创始人兼 CTO Chenlin Meng,都是斯坦福大学 AI Lab 博士生。

4.png

Pika CEO Demi Guo(左)从小喜欢诗歌和创意写作,联合创始人兼首席技术官Chenlin Meng(右)希望成为一名动画师

机缘巧合,Pika 的创立,竟还是竞品 Runway 提供的契机。

郭文景和同学曾在去年参加 Runway 的首届 AI 电影节,发现 Runway 和 Adobe Photoshop 的工具并不好用,自己的作品也并未获奖。

今年四月,郭文景决定从斯坦福退学,开发更好用的 AI 视频工具,Pika 由此诞生。

电影质感,动画级特效,Pika 1.0 效果炸裂

大佬们的天使投资只是可能成功的背书,而真正引起全网轰动的,还是它官方放出的效果视频:

一句话,「elon musk in a space suit,3d animation」,马斯克瞬间进入二次元。

炸裂的是,3D 动画版的马老板不但神形兼备,而且背景和动作都非常合理连贯,面部一致性也惊人的完美!

对比 Gen-2 和 Pika Labs 之前的视频效果,Pika 1.0 简直不是一个时代的产品。

真·每个人都能成为自己的视频导演。

5.gif

观众也许还没从 3D 马斯克惊艳的效果中回过神来,下一段视频中官方马上秀出了 Pika 1.0 生成其他风格的视频效果。

从普通的 2D 动画,到实拍感十足的电影场景,生成的视频呈现出了完美的光影,精致的细节,多样化的镜头控制。

不知道传统电影人看到这里是什么心情。

6.gif

不知道传统电影人看到这里是什么心情。

而真正引发全网欢呼的,是 Pika Labs 1.0 能够支持对于视频实时编辑和修改。

这些连 AI 生图领域都才刚刚获得的能力,Pika Labs 就能把它们扩展到 AI 视频中来。

可见他们团队的技术和工程能力真是强得的令人发指。

类似于 Midjourney 对于图片的「外画」功能,Pika 1.0 可以根据已有的素材直接扩展视频,生成不同高宽比的内容。

7.gif

更为夸张的是,Pika 1.0 可以直接在视频中添加想要的素材。

只要用鼠标框一下,输入「一副酷酷的太阳镜」,马上就能给视频中的狒狒精确地带上墨镜,和原视频完美契合。

8.gif

而对于视频中人物的着装,也只要简单框一个范围,文字输入想要的效果,就能一键换装。

9.gif

这简直就是魔法!

支持三种模态的提示输入,让 Pika Labs 1.0 直接「对齐」了 runway 家族的几乎所有的功能。

文生视频,所有人物,动物的面部表情都非常完美,加上好莱坞动画级别的细节和光影效果,很难想象这个公司成立仅仅半年。

10.gif

图片配合提示词生成动画,图片为第一帧,文字控制动画变化效果和镜头。

11.gif

而根据用户提供的视频素材,配合提示词来制作不同风格的动画,更是手到擒来。

从像素风到到黑白幻灯片效果,演示出的 5 种风格转化,几乎涵盖了现有电影和动画大部分风格。

12.gif

总结一下,全新的模型 Pika 1.0 的新功能包括:

- 文本生成视频/图像生成视频:输入几行文本或上传图像,就可以通过 AI 创建简短、高质量的视频。

- 视频-视频不同风格转换:将现有视频转换为不同的风格,包括不同的角色和对象,同时保持视频的结构。

- 扩展(expand):扩展视频的画布或宽高比。将视频从 TikTok 9:16 格式更改为宽屏 16:9 格式,AI 模型将预测超出原始视频边界的内容。

- 更改:使用 AI 编辑视频内容,比如更换衣服、添加另一个角色、更改环境或添加道具。

- 扩展(Extend):使用 AI 扩展现有视频剪辑的长度。

- 全新 Web 界面:Pika 将在 https://pika.art  的 Discord 和 Web(移动和桌面)上提供。

从现在 Pika Labs 1.0 能实现的功能来看,两位创始人说他们因为觉得 Runway 不好用才来创业,看来是一点都不夸张。

他们几乎是在 6 个月的时间里做出了 Runway 家族现有的所有功能,还针对 Runway 产品中现有的几大短板做了全面的升级。

精准的语义理解,能准确生成神形兼备的马斯克。

几乎完美的人物面部一致性,让动画中人物的脸部特征不会发生畸变。

准确的提示词编辑能力,能让用户自由添加和修改视频中的各种元素。

现在 Pika 1.0 开启了申请试用,网友看了视频之后发推感叹:排队申请 Pika 1.0 的人,现在是这样的!

13.png

在获取 Pika 1.0 试用资格之前,和 Midjourney 一样,用户现在通过 Discord 获取 Pika Labs 的视频生成服务。

用户只需在聊天框输入文字,比如「一个机器人在日落沙滩上行走」,就能收到一个由 AI 生成的视频。

14.png

周二,Pika 把这一体验带到了网页上,面向更广泛的主流群体,让他们可以在编辑视频、自定义物体。

这里还有一段,Pika 创意总监前几天放出的,用 Pika 文本转视频 AI 功能制作的「3D 动画预告片」,效果萌到爆。

AI 大佬们纷纷看好

加密领域的大牛们盛赞了 Pika 1.0,包括 Solana 的联合创始人,以及 Reddit 的联合创始人 Alexis Ohanian。

15.png

加密社区中的许多人认为,生成式 AI 可以振兴 NFT 市场,为创作者提供新方法,将他们的数字愿景变为现实,并为收藏家提供独特的AI制作数字资产。

作为 Pika Labs 的天使投资人,Hugging Face CEO Clement 昨天也做出了预言:

2024 年,某个主流媒体领域将会充斥 AI 生成的内容。

16.jpg

OpenAI 科学家 Karpathy 本人是非常关注图像-视频生成领域的新动向。并且也在 Pika Labs 的本轮融资中参投。

17.png

对此,他发表了自己的一些看法:

你知道图像生成是如何在极短时间内,从模糊的32x32纹理块,变成难以在与真实图像区分的高分辨率图像的吗?

现在,同样的事情正在同时间发生,已经延伸到视频,其影响令人难以置信。每个人都成为多模态梦想的导演,就像《盗梦空间》中的建筑师一样。

暂时回到现实,图像/视频生成与数据饥渴的神经网络完美匹配。

因为数据丰富,每个图像或视频的像素是网络参数的巨大比特(软约束)来源。当你在数据监督的环境中训练巨型神经网络时,你的训练损失=验证损失,生活是多么美好。

18.png

两个月前,他还曾联动使用 DALL·E 3 和 Pika Labs 的工具生成了一个动画。

19.png

20.gif

Perplexity AI 的首席执行官表示,Demi 和 Chenlin 充满干劲。这就是为什么她们会大获成功的原因。从我参与他们的种子轮融资开始观察他们的执行力和进度,让我意识到一件事:保持不懈的干劲。

20.png

Stability AI 的首席执行官对 Pika Labs 的最新成果也是赞不绝口。

21.png

Pytorch 的 CEO 表示,Runway 作为该领域的佼佼者,现在有了新的竞争对手。

22.png

退学斯坦福,成为 CEO

根据福布斯的报道,去年冬天,郭文景和同几位斯坦福的计算机博士同学一起,打算利用寒假的时间,用生成式 AI 制作一部电影。

当时,估值已达 5 亿美元的初创公司 Runway,举办了首届AI电影节,奖金高达 10,000 美元。而他们对获奖很有信心。

出乎意料的是,郭文景团队的作品并没有入选。他们的团队技术含量很高,但制作电影的过程并不顺利。

虽然当时 AI 技术有了许多突破,但将它们应用于视频制作的过程十分繁琐 。即便团队在 Gen-2 和 Adobe Photoshop 上投入了大量的时间,效果却并不理想。

最终,Runway 的大奖颁发给了专业的创意团队。这让郭文景很沮丧。

今年四月,郭文景和 Chenlin Meng 从斯坦福辍学,创办了 Pika,目的是构建更易使用的的 AI 视频生成工具。

Pika 成立后,到现在为止已经有了 50 万用户,他们每周都会制作数百万个视频。

这种爆炸式增长,引起了硅谷投资人的兴趣,让 Pika 在三轮融资中筹集到了 5500 万美元。

前两轮融资由前 GitHub 首席执行官 CEO Nat Friedman 领投,而最新一轮的 3500 万美元 A 轮融资由 Lightspeed Venture Partners 领投。

Friedman 表示,自己对 Pika 团队使用单 GPU 就制作出的初期 demo,印象非常深刻。

Friedman 与投资人 Daniel Gross 共同拥有一个包含 2500 多个 GPU 的超级计算集群,名为 Andromeda(仙女座)。他们投资的初创公司,都会得到这个资源的支持。

得到仙女座超算集群的助力,Pika 的 AI 视频模型飞速地进步。

创业公司最大的武器,是速度

在创业初期,Pika 仅专注于生成动漫视频。

因为她们觉得,用 AI 生成真实视频的任务过于艰巨,像 Runway 和 Stability AI 资金雄厚的公司已经有了领先优势。

而且,Adobe 这样的巨头,也迅速把 AI 功能集成到了产品中。

然而,两位创始人团队的速度,出乎所有人预料。

23.png

一个夏日的下午,天使投资人 Friedman 向团队提出了一个想法:在视频中嵌入文本。

凌晨 3 点,他收到了一条短信,告知这项功能已经准备就绪。

团队如此高效,让 Friedman 非常震惊,但他很快就意识到:这种「极端高效」的工作节奏,正是这个团队最大的特色。

而这,也正是 Friedman 决定进行下一轮投资的原因之一。

九月投资的 Lightspeed 的合伙人 Michael Mignano,同样认为这是 Pika 的关键优势:「对于初创公司来说,速度就是最大的武器和优势,而这个团队,无疑是我见过最快的。」

24.png

就是靠着这样的速度,短短几周,团队就实现了用 AI 制作真实视频。

而当 Mignano 在 11 月初提出开发网页应用的想法时,Pika 立即行动,在当月就推出了网页版。

现在,Pika 租用了几百个 GPU。今天发布的 Pika 1.0,正是基于这些 GPU 构建的。

同时,Pika 团队也在努力改进他们的算法以增强模型性能,并开发新算法来过滤掉可能引发版权诉讼的、受版权保护的内容。

「现在这方面的工作还处于探索阶段,」郭文景表示。

随着新一轮资金的到位,郭计划在明年将 Pika 的团队扩展到大约 20 人,大部分是工程师和研究人员。

目前 Pika 的产品还是免费的,他们也不着急赚钱,但郭文景表示公司可能最终会推出分层订阅模式,让付费用户享用更多功能。

郭文景还计划通过这种方式,让 Pika 与其他竞品区分开。

我们开发的并不是电影制作工具,而是为日常消费者打造的产品——我们虽然有创造力,但并不是专业人士。

如果在一年前,就有 Pika 这样的工具,那我们团队在 AI 电影节上,很可能会大放异彩。

结尾

AI 视频领域,竞争愈发白热化了。

科技巨头 Adobe Systems 收购了 Rephrase.ai,Meta 推出了 Emu Video,Stability AI 发布了 Stable Video Diffusion,Runway对RunwayML进行了更新。

而 Pika 的闯入,无疑再次搅动了 AI 视频领域的格局,战场上已经硝烟滚滚。

参考资料:

https://twitter.com/pika_labs/status/1729510078959497562

https://techcrunch.com/2023/11/28/pika-labs-which-is-building-ai-tools-to-generate-and-edit-videos-raises-55m/

https://decrypt.co/207799/pika-ai-video-tool-blasts-out-of-beta

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章