Sora来了,字节发力:张楠的重任和挑战

HelloKitty 2024-02-21 18:24

扫一扫 在手机阅读、分享本文

1679

本文由 连线Insight 撰写/授权提供,转载请注明原出处。

文章来源于:连线Insight

作者:王慧莹

编辑:子夜

OpenAI 再次引发全球注目。

北京时间 2 月 16 日,OpenAI 发布了文生视频大模型 Sora。从官方介绍看,Sora 能够根据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成 60 秒视频。

这熟悉的一幕,让人梦回 2023 年。彼时,ChatGPT 引发了大模型的浪潮,掀起了全球范围内的 AI 军备竞赛。到了今年,OpenAI 再次扔出一枚石子,在文生视频的池子里激起涟漪。

Sora 让“一句话生成视频”变成可能,这是一场人工智能改变视频制作的革命,全球短视频巨头字节跳动也不能忽视这个浪潮。

巧合的是,Sora 问世一周前,字节跳动宣布了一项人事变动,原抖音集团 CEO 张楠宣布,自己已经辞去集团 CEO 一职,未来把精力聚焦在剪映的发展上。字节跳动 CEO 梁汝波表示,感谢张楠过去带领中国信息平台业务做出的贡献和突破,期待她在新岗位上再接再厉。

作为元老级员工,张楠已经加入字节跳动十年整,主导推出了抖音、火山等产品。她带领抖音完成了对竞争对手的反超,成为字节跳动实现二次飞跃的关键人物。如今,抖音的日活已经超过6.5亿,成为全球范围内短视频领域的佼佼者。

高层的变动常常伴随业务的调整,让最熟悉抖音生态的人来负责剪映,字节跳动的目标很明确,要在 AI 文生视频制作方面抓住新的爆发机遇。

据时代周报报道,接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映先关的业务上,并亲自带队寻求在AI辅助创作上有所突破,并即将推出一个AI生成和视频的产品。

ChatGPT 和 Sora 给字节跳动带来了新的启发,也带来了更多压力。过去一年,字节跳动延续超级 APP 的逻辑,接连推出了多款基于 AI 技术的产品,分布对话、工具、互动剧情等多个类别,包括豆包、扣子等 APP。

动作很多,但速度不快,成果不显,这让字节跳动感到焦虑。年初内部会议上,梁汝波把对技术部门的不满表达得很直白。他说,字节跳动居然直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司都是在 2018 年至 2021 年创立的。

AI 风口下,字节还没能大力出奇迹,张楠再次担任了冲锋者的角色。能否带领剪映再次创造奇迹,对张楠和字节跳动来说至关重要,这决定了字节跳动能否走出增长困境,寻找到新的生机。

Sora 来了,压力给到了字节跳动

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包;她戴着太阳镜,涂着红色口红;她走路自信又随意……

潮湿积水的街道倒映着上空的影像、女性皮肤上的毛孔清晰可见,如此逼真写实的视频画面,出自 AI 之手。

微信截图_20240221181155.png

Sora示例视频,来源OpenAI官网

没有任何预告,OpenAI 再放大招。北京时间 2 月 16 日 OpenAI 在社交平台X发帖,首次对外公布了名为 Sora 的文生视频 AI 模型。

Sora 带来的震撼,不亚于去年的 ChatGPT,瞬时成为开年最火爆的话题之一。

事实上,文生视频并非新鲜事物。在 Sora 发布前,根据知名投资机构 a16z 统计,截至 2024 年底,市场上共有 21 个公开的 AI 视频模型,包括大众熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等。

但 Sora 为何会如此惊艳,并以颠覆性再次搅动 AI 行业?理解力、还原力是 Sora 效果超预期的核心。

OpenAI 官网上的多段视频也证明了 Sora 的能力。两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。

在视频时长上看,用户只需要输入一段文本,Sora 就能自动生成最长一分钟的高清视频。这超出了市面上的大多数产品。根据 a16z 统计,现有的 AI 视频模型制作的视频长度大都在 10 秒以内,像此前大热的 Runway Gen 2、Pika,其制作的视频长度分别只有4秒和3秒。

更重要的是,Sora 对真实世界的理解能力和还原能力都超出了市面现有的大模型。

正如 OpenAI 在官方博客上写道,Sora 不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。具体而言,Sora 不仅能实现一镜到底,还能完成多角度镜头、分镜头的切换,更能还原真实世界中的光影反射、人类行为等。

超预期的表现离不开技术支撑。据 OpenAI 介绍,因使用 Transformer 架构,Sora 具有极强的扩展性,同时在基于过去对 DALL·E 和 GPT 的研究基础构建上还利用了 DALL·E 3 的重述提示词技术,为视觉模型训练数据生成高描述性的标注。

Sora 的出现能否掀起中国乃至全球范围新一轮的 AI 军备竞赛尚不可知,但能生成 60s 视频的 Sora,把压力实实在在给到了字节跳动。因为 60s 视频所处的赛道,正是字节跳动王牌业务抖音的大本营。

11111.jpg

图源抖音官网

在抖音生态越来越丰富后,为了服务内容创作者,剪映也应运而生。背靠抖音的流量池,截至 2021 年,剪映的月活用户已经突破 1 亿,是国内最大的移动视频编辑产品。而 TikTok 在全球的风靡,也带动了剪映海外版 CapCut 的下载量激增。 

剪映之所以能够如此风靡,原因在于降低了门槛,让普通人都能够更快更简单地产出视频内容。

而近两年,随着 AIGC 的火爆,视频制作门槛将被再次降低。这也是如今 Sora 对剪映产生威胁的核心原因:更多人将倾向于选择门槛更低,但效果更好的平台,剪映的用户将可能被 AI 视频生成产品抢走。

为了留住用户,同时也为了抓住新的机会,剪映布局 AIGC 几乎是必然。

2023 年 11 月,剪映测试名为“Dreamina”的 AIGC 工具,用户只需输入一段文字,Dreamina 即可生成四幅由 AI 生成的创意图像。这些图像可以从抽象、写实等多个维度生成,满足不同用户的审美需求。

彼时,据 Tech 星球报道,消息人士透露,该工具未来会用于抖音的图文或短视频的内容创作,丰富抖音在 AI 创造方面的内容库。

不过从效果来看,目前剪映面临和 Runway、Pika、Genmo 等产品一样的困境:视频的运动不自然,保真度不高、视角单一等问题,这些问题本质上是技术问题,Sora 靠技术解决了这些问题,威胁到“剪映们”生存的同时,也给“剪映们”提供了思路。

今年,原抖音集团 CEO 张楠卸任,转而投入剪映的发展,透露出抖音乃至字节对 AI 创作的重视。值得关注的是,在张楠发给剪映的内部信中,张楠提到,AI 图像生成技术正在内容创作工具行业带来巨大的变化和可能性。

如今,Sora 的横空出世,给了字节跳动压力,它不能再慢了,而如何带剪映突围,则成了张楠新阶段的重任。

张楠要为字节跳动再次“开疆”

加入公司十年,原抖音集团 CEO 张楠算得上是字节跳动的功臣。某种程度上看,字节跳动短视频业务能够快速“开疆扩土”,靠的就是张楠。

2015 年开始,张楠先是带着团队推出了火山小视频,上线后迅速爆火,日活跃用户很快突破5000万;2016 年,张楠从 0 到 1 推出了抖音,为当下国内最火的短视频 APP 奠定了基础,如今抖音的日活超过了 6.5 亿。

2020 年 3 月 12 日,字节跳动在成立八周年之际,宣布张楠担任字节跳动(中国)CEO,作为中国业务总负责人,全面协调公司中国业务的产品、运营、市场和内容合作,包括今日头条、抖音、西瓜视频、搜索等业务和产品。

2222.jpg

张楠,图源字节跳动官网

没过多久,伴随字节组织架构调整,抖音从字节跳动旗下的 APP 成长为拥有复杂生态的抖音集团,旗下拥有抖音、火山、剪映、轻颜相机等多个 APP,张楠出任抖音集团 CEO。

身份的变化,让张楠更像是幕后掌控抖音全局的指挥官,而非冲锋陷阵的将军,但她始终是最了解抖音生态的人。

伴随市场环境的变化,抖音短视频的增长不及以前是事实,但抖音要为字节寻找新增量的目标没变。AI 的东风越吹越大,原本是抖音视频创作工具的剪映站在风口之上,这是个机会,字节跳动必须抓住。

这时候,张楠的位置和角色很重要,最了解抖音的人,现在转去负责剪映。

离开自己一手带出来的抖音,张楠在告别文中表示,“在未来的十年再折腾一些我热爱的事情”。

张楠职位的变化,与其说是她离开抖音权力中心,不如说是被放在了新的关键位置上,也释放出字节要在 AI 领域突围的信号。

就在张楠辞任抖音 CEO 一周前,字节 CEO 梁汝波在字节举行的 2024 年度全员会上发表了“始终创业,逃逸平庸的重力”的内部讲话。

在这场分享会上,梁汝波多次提及“危机感”一词,梁汝波甚至还将“加强危机感”列入年度目标。他坦言,最大的危机感,是担心字节作为一个组织,正在变得平庸,无法取得新的突破。

3333.jpg

字节跳动CEO梁汝波,图源字节范儿微信公众号

当短视频业务趋近天花板,字节需要找到新的增长点。当 OpenAI 的两枚炸弹证明了 AI 行业蕴藏的想象力,字节跳动作为一家拥有丰富内容生态的公司,拥有天然的 AI 使用场景,必须跟上 AI 的脚步,用 AI 技术为自身寻找突破。

“字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个 AI 的时代一起成长,共同绘制出脑海中的奇幻世界。”张楠如此写道。

这个 AI 梦,不只属于张楠自己,更肩负着字节跳动的希望。

AI 时代,字节跳动的全球挑战

如果一家创业公司 2023 年上半年营收超越腾讯,2024 年开年估值达到 2250 亿美元,位于全球独角兽榜首,那这家公司的年度关键词会是什么?

不是信心、不是振奋,字节跳动 CEO 梁汝波给出的答案是危机感。

梁汝波提到,组织上,字节跳动变得平庸:低效、迟钝、标准低;人才管理上,去肥增瘦效果不明显,对优质人才吸引力降低;业务上,核心业务领先不明显,其他业务需要突破。

“对机会敏感度不如创业公司”,公司业务上迟钝加重了梁汝波的危机感。对大模型的技术浪潮跟进太慢,就是梁汝波感到危机的原因之一。

2023 年,由 OpenAI 开启了“ChatGPT 热”,也掀起了全球范围内的 GPT 竞赛,国内外多个知名互联网巨头都推出了自研大模型产品。

回看字节跳动的动作:2023 年 1 月组建了首个大模型团队,将远在新加坡负责 TikTok 技术负责人朱文佳调回国内担任团队的业务负责人;2023 年 5 月,字节跳动创始人张一鸣忙着研究 OpenAI 的一系列论文,并且常常读至深夜。

只是,相比字节跳动曾经的战斗力,在新的 AI 时代,字节跳动似乎没能一鸣惊人。

4444.png

图源字节跳动官网

当其他公司都在加入大模型竞赛,一个接着一个产品陆续推出后,字节跳动在 2023 年 8 月才推出自研大模型“云雀大模型”。在此之后,字节跳动的 AI 动作才变得快速而频繁起来。

先是 AI 对话产品“豆包”开启测试,它的前身是字节内部代号为“Grace”的 AI 项目,可以生成歌词、小说、文案等文本内容,还可以提供数学计算、翻译、英文写作等功能;后有扣子、AI角色互动 APP“话炉”、AI 产品“PicPic”等产品进入内测和研发阶段。

目前,字节在国内外已上线十余款 AI 产品,除了上述提到的产品,还有“AI 搜”、 AI 情绪伴聊机器人的“抖音小晴”、 针对电商内容创作的产品“即创”、AI 工具合集小悟空(ChitChop)、 AI 剧情互动平台 BagelBell 等。

这些产品的背后,是一个全新的 AI 部门 Flow,也是字节在 AI 时代的排头兵。据 36 氪报道,Flow 部门技术负责人为字节跳动技术副总裁洪定坤。一位知情人士告诉 36 氪,这一新部门的业务带头人,为字节大模型团队的负责人朱文佳;据 Tech 星球报道,字节跳动产品与战略副总裁朱骏已负责 Flow 部门的产品线。

调用多名主力干将,字节发力 AI 的意图已经十分明显。只是,虽然在 AI 的投入不少,但字节系产品要突围并不容易。比如,“豆包”的推出不仅比 ChatGPT 晚了八个月,从效果上看,多家媒体评测结果显示,“豆包”的智能化水平在大模型 C 端助理类产品中没有明显优势。

一个明显的变化是,到了 AI 时代,字节跳动还处在追随者的角色,且尚未有弯道超车的迹象。

而放眼 TikTok 在全球的发展,要面对的挑战和竞争也不少。在这种情况下,字节跳动在 AI 时代还没有自己的独特优势,甚至有可能被新技术颠覆,这或许正是梁汝波的危机感所在。

“字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍然可以依赖惯性滑行很长一段时间,但这是很危险的。” 梁汝波提到。

在过去的十年,字节跳动抓住了短视频时代的红利,而下一个十年,如何在 AI 时代,从追随者变成创造者,保持创业状态继续突围,考验着字节跳动。正如梁汝波所说,只有保持危机感和始终创业的心态,字节跳动才能“逃逸平庸的重力”。

微信图片_20231218102300.png

微信图片_20240207151541.png

1706509567_pic_real.png

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章