HelloKitty • 2024-02-21 18:24
1679
本文由 连线Insight 撰写/授权提供,转载请注明原出处。
文章来源于:连线Insight
作者:王慧莹
编辑:子夜
OpenAI 再次引发全球注目。
北京时间 2 月 16 日,OpenAI 发布了文生视频大模型 Sora。从官方介绍看,Sora 能够根据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成 60 秒视频。
这熟悉的一幕,让人梦回 2023 年。彼时,ChatGPT 引发了大模型的浪潮,掀起了全球范围内的 AI 军备竞赛。到了今年,OpenAI 再次扔出一枚石子,在文生视频的池子里激起涟漪。
Sora 让“一句话生成视频”变成可能,这是一场人工智能改变视频制作的革命,全球短视频巨头字节跳动也不能忽视这个浪潮。
巧合的是,Sora 问世一周前,字节跳动宣布了一项人事变动,原抖音集团 CEO 张楠宣布,自己已经辞去集团 CEO 一职,未来把精力聚焦在剪映的发展上。字节跳动 CEO 梁汝波表示,感谢张楠过去带领中国信息平台业务做出的贡献和突破,期待她在新岗位上再接再厉。
作为元老级员工,张楠已经加入字节跳动十年整,主导推出了抖音、火山等产品。她带领抖音完成了对竞争对手的反超,成为字节跳动实现二次飞跃的关键人物。如今,抖音的日活已经超过6.5亿,成为全球范围内短视频领域的佼佼者。
高层的变动常常伴随业务的调整,让最熟悉抖音生态的人来负责剪映,字节跳动的目标很明确,要在 AI 文生视频制作方面抓住新的爆发机遇。
据时代周报报道,接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映先关的业务上,并亲自带队寻求在AI辅助创作上有所突破,并即将推出一个AI生成和视频的产品。
ChatGPT 和 Sora 给字节跳动带来了新的启发,也带来了更多压力。过去一年,字节跳动延续超级 APP 的逻辑,接连推出了多款基于 AI 技术的产品,分布对话、工具、互动剧情等多个类别,包括豆包、扣子等 APP。
动作很多,但速度不快,成果不显,这让字节跳动感到焦虑。年初内部会议上,梁汝波把对技术部门的不满表达得很直白。他说,字节跳动居然直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司都是在 2018 年至 2021 年创立的。
AI 风口下,字节还没能大力出奇迹,张楠再次担任了冲锋者的角色。能否带领剪映再次创造奇迹,对张楠和字节跳动来说至关重要,这决定了字节跳动能否走出增长困境,寻找到新的生机。
Sora 来了,压力给到了字节跳动
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包;她戴着太阳镜,涂着红色口红;她走路自信又随意……
潮湿积水的街道倒映着上空的影像、女性皮肤上的毛孔清晰可见,如此逼真写实的视频画面,出自 AI 之手。
Sora示例视频,来源OpenAI官网
没有任何预告,OpenAI 再放大招。北京时间 2 月 16 日 OpenAI 在社交平台X发帖,首次对外公布了名为 Sora 的文生视频 AI 模型。
Sora 带来的震撼,不亚于去年的 ChatGPT,瞬时成为开年最火爆的话题之一。
事实上,文生视频并非新鲜事物。在 Sora 发布前,根据知名投资机构 a16z 统计,截至 2024 年底,市场上共有 21 个公开的 AI 视频模型,包括大众熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等。
但 Sora 为何会如此惊艳,并以颠覆性再次搅动 AI 行业?理解力、还原力是 Sora 效果超预期的核心。
OpenAI 官网上的多段视频也证明了 Sora 的能力。两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。
在视频时长上看,用户只需要输入一段文本,Sora 就能自动生成最长一分钟的高清视频。这超出了市面上的大多数产品。根据 a16z 统计,现有的 AI 视频模型制作的视频长度大都在 10 秒以内,像此前大热的 Runway Gen 2、Pika,其制作的视频长度分别只有4秒和3秒。
更重要的是,Sora 对真实世界的理解能力和还原能力都超出了市面现有的大模型。
正如 OpenAI 在官方博客上写道,Sora 不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。具体而言,Sora 不仅能实现一镜到底,还能完成多角度镜头、分镜头的切换,更能还原真实世界中的光影反射、人类行为等。
超预期的表现离不开技术支撑。据 OpenAI 介绍,因使用 Transformer 架构,Sora 具有极强的扩展性,同时在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。
Sora 的出现能否掀起中国乃至全球范围新一轮的 AI 军备竞赛尚不可知,但能生成 60s 视频的 Sora,把压力实实在在给到了字节跳动。因为 60s 视频所处的赛道,正是字节跳动王牌业务抖音的大本营。
图源抖音官网
在抖音生态越来越丰富后,为了服务内容创作者,剪映也应运而生。背靠抖音的流量池,截至 2021 年,剪映的月活用户已经突破 1 亿,是国内最大的移动视频编辑产品。而 TikTok 在全球的风靡,也带动了剪映海外版 CapCut 的下载量激增。
剪映之所以能够如此风靡,原因在于降低了门槛,让普通人都能够更快更简单地产出视频内容。
而近两年,随着 AIGC 的火爆,视频制作门槛将被再次降低。这也是如今 Sora 对剪映产生威胁的核心原因:更多人将倾向于选择门槛更低,但效果更好的平台,剪映的用户将可能被 AI 视频生成产品抢走。
为了留住用户,同时也为了抓住新的机会,剪映布局 AIGC 几乎是必然。
2023 年 11 月,剪映测试名为“Dreamina”的 AIGC 工具,用户只需输入一段文字,Dreamina 即可生成四幅由 AI 生成的创意图像。这些图像可以从抽象、写实等多个维度生成,满足不同用户的审美需求。
彼时,据 Tech 星球报道,消息人士透露,该工具未来会用于抖音的图文或短视频的内容创作,丰富抖音在 AI 创造方面的内容库。
不过从效果来看,目前剪映面临和 Runway、Pika、Genmo 等产品一样的困境:视频的运动不自然,保真度不高、视角单一等问题,这些问题本质上是技术问题,Sora 靠技术解决了这些问题,威胁到“剪映们”生存的同时,也给“剪映们”提供了思路。
今年,原抖音集团 CEO 张楠卸任,转而投入剪映的发展,透露出抖音乃至字节对 AI 创作的重视。值得关注的是,在张楠发给剪映的内部信中,张楠提到,AI 图像生成技术正在内容创作工具行业带来巨大的变化和可能性。
如今,Sora 的横空出世,给了字节跳动压力,它不能再慢了,而如何带剪映突围,则成了张楠新阶段的重任。
张楠要为字节跳动再次“开疆”
加入公司十年,原抖音集团 CEO 张楠算得上是字节跳动的功臣。某种程度上看,字节跳动短视频业务能够快速“开疆扩土”,靠的就是张楠。
2015 年开始,张楠先是带着团队推出了火山小视频,上线后迅速爆火,日活跃用户很快突破5000万;2016 年,张楠从 0 到 1 推出了抖音,为当下国内最火的短视频 APP 奠定了基础,如今抖音的日活超过了 6.5 亿。
2020 年 3 月 12 日,字节跳动在成立八周年之际,宣布张楠担任字节跳动(中国)CEO,作为中国业务总负责人,全面协调公司中国业务的产品、运营、市场和内容合作,包括今日头条、抖音、西瓜视频、搜索等业务和产品。
张楠,图源字节跳动官网
没过多久,伴随字节组织架构调整,抖音从字节跳动旗下的 APP 成长为拥有复杂生态的抖音集团,旗下拥有抖音、火山、剪映、轻颜相机等多个 APP,张楠出任抖音集团 CEO。
身份的变化,让张楠更像是幕后掌控抖音全局的指挥官,而非冲锋陷阵的将军,但她始终是最了解抖音生态的人。
伴随市场环境的变化,抖音短视频的增长不及以前是事实,但抖音要为字节寻找新增量的目标没变。AI 的东风越吹越大,原本是抖音视频创作工具的剪映站在风口之上,这是个机会,字节跳动必须抓住。
这时候,张楠的位置和角色很重要,最了解抖音的人,现在转去负责剪映。
离开自己一手带出来的抖音,张楠在告别文中表示,“在未来的十年再折腾一些我热爱的事情”。
张楠职位的变化,与其说是她离开抖音权力中心,不如说是被放在了新的关键位置上,也释放出字节要在 AI 领域突围的信号。
就在张楠辞任抖音 CEO 一周前,字节 CEO 梁汝波在字节举行的 2024 年度全员会上发表了“始终创业,逃逸平庸的重力”的内部讲话。
在这场分享会上,梁汝波多次提及“危机感”一词,梁汝波甚至还将“加强危机感”列入年度目标。他坦言,最大的危机感,是担心字节作为一个组织,正在变得平庸,无法取得新的突破。
字节跳动CEO梁汝波,图源字节范儿微信公众号
当短视频业务趋近天花板,字节需要找到新的增长点。当 OpenAI 的两枚炸弹证明了 AI 行业蕴藏的想象力,字节跳动作为一家拥有丰富内容生态的公司,拥有天然的 AI 使用场景,必须跟上 AI 的脚步,用 AI 技术为自身寻找突破。
“字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个 AI 的时代一起成长,共同绘制出脑海中的奇幻世界。”张楠如此写道。
这个 AI 梦,不只属于张楠自己,更肩负着字节跳动的希望。
AI 时代,字节跳动的全球挑战
如果一家创业公司 2023 年上半年营收超越腾讯,2024 年开年估值达到 2250 亿美元,位于全球独角兽榜首,那这家公司的年度关键词会是什么?
不是信心、不是振奋,字节跳动 CEO 梁汝波给出的答案是危机感。
梁汝波提到,组织上,字节跳动变得平庸:低效、迟钝、标准低;人才管理上,去肥增瘦效果不明显,对优质人才吸引力降低;业务上,核心业务领先不明显,其他业务需要突破。
“对机会敏感度不如创业公司”,公司业务上迟钝加重了梁汝波的危机感。对大模型的技术浪潮跟进太慢,就是梁汝波感到危机的原因之一。
2023 年,由 OpenAI 开启了“ChatGPT 热”,也掀起了全球范围内的 GPT 竞赛,国内外多个知名互联网巨头都推出了自研大模型产品。
回看字节跳动的动作:2023 年 1 月组建了首个大模型团队,将远在新加坡负责 TikTok 技术负责人朱文佳调回国内担任团队的业务负责人;2023 年 5 月,字节跳动创始人张一鸣忙着研究 OpenAI 的一系列论文,并且常常读至深夜。
只是,相比字节跳动曾经的战斗力,在新的 AI 时代,字节跳动似乎没能一鸣惊人。
图源字节跳动官网
当其他公司都在加入大模型竞赛,一个接着一个产品陆续推出后,字节跳动在 2023 年 8 月才推出自研大模型“云雀大模型”。在此之后,字节跳动的 AI 动作才变得快速而频繁起来。
先是 AI 对话产品“豆包”开启测试,它的前身是字节内部代号为“Grace”的 AI 项目,可以生成歌词、小说、文案等文本内容,还可以提供数学计算、翻译、英文写作等功能;后有扣子、AI角色互动 APP“话炉”、AI 产品“PicPic”等产品进入内测和研发阶段。
目前,字节在国内外已上线十余款 AI 产品,除了上述提到的产品,还有“AI 搜”、 AI 情绪伴聊机器人的“抖音小晴”、 针对电商内容创作的产品“即创”、AI 工具合集小悟空(ChitChop)、 AI 剧情互动平台 BagelBell 等。
这些产品的背后,是一个全新的 AI 部门 Flow,也是字节在 AI 时代的排头兵。据 36 氪报道,Flow 部门技术负责人为字节跳动技术副总裁洪定坤。一位知情人士告诉 36 氪,这一新部门的业务带头人,为字节大模型团队的负责人朱文佳;据 Tech 星球报道,字节跳动产品与战略副总裁朱骏已负责 Flow 部门的产品线。
调用多名主力干将,字节发力 AI 的意图已经十分明显。只是,虽然在 AI 的投入不少,但字节系产品要突围并不容易。比如,“豆包”的推出不仅比 ChatGPT 晚了八个月,从效果上看,多家媒体评测结果显示,“豆包”的智能化水平在大模型 C 端助理类产品中没有明显优势。
一个明显的变化是,到了 AI 时代,字节跳动还处在追随者的角色,且尚未有弯道超车的迹象。
而放眼 TikTok 在全球的发展,要面对的挑战和竞争也不少。在这种情况下,字节跳动在 AI 时代还没有自己的独特优势,甚至有可能被新技术颠覆,这或许正是梁汝波的危机感所在。
“字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍然可以依赖惯性滑行很长一段时间,但这是很危险的。” 梁汝波提到。
在过去的十年,字节跳动抓住了短视频时代的红利,而下一个十年,如何在 AI 时代,从追随者变成创造者,保持创业状态继续突围,考验着字节跳动。正如梁汝波所说,只有保持危机感和始终创业的心态,字节跳动才能“逃逸平庸的重力”。
扫码关注公众号
获取更多技术资讯