对话一览科技罗江春:AI 大模型如何重塑视频创作行业?

HelloKitty 2023-05-12 15:40

扫一扫 在手机阅读、分享本文

2560

本文由 AI科技评论 撰写/授权提供,转载请注明原出处。

文章来源于:AI科技评论

作者:房晓楠

编辑:林觉民

2018 年,乌镇,世界互联网大会会场,罗江春以一览科技创始人的身份发表主题演讲,他预测,未来五年,RGC(机器生成视频,Robotics Generated Content)将会走进现实并成为主流。

彼时,距离一览科技创办已近 1 年,距离 ChatGPT 诞生、出圈、爆火,还有近 4 年时间。罗江春的预测大胆、前卫,没有引来想象中听众的振臂高呼。

后来的事情大家都知道,OpenAI 发布 ChatGPT,生成式 AI 发生质变,AIGC 席卷网络,人工智能迎来新一轮的变革。国内外科技巨头纷纷下注、加码,势如破竹,狂欢继续。

一览科技创立于2017 年 9 月,是国内领先的一站式视频解决方案提供商,作为较早一批进入 AI 领域的先行者,凭借过去五年的积累和经验,迅速实现 AIGC 应用层产品化。

今年 3 月,一览科技推出业界首个基于大模型的“文本+图片+虚拟人”视频 AIGC 工作流,搭载于旗下视频创作者工具“一览运营宝”,专注服务影视及短视频行业人群。

罗江春是视频领域的资深玩家,从 2000 年躬身入局,到 2005 年创办风行,再到 2017 年成立一览科技,二十多年里,一步步见证视频生产方式从 PGC、UGC、RGC 进阶到如今的 AIGC。

作为见证者,罗江春认为,“OpenAI 的出现,把内容的生产形式从 RGC 带入了 AIGC,标志着真正的 AIGC 时代已经来临。”

以下是罗江春和《AI 科技评论》的对话:

AI 专业出身入局视频行业已有二十多年

AI 科技评论:在这轮 GPT 浪潮来临前,你在 AI 上做了哪些尝试?

罗江春:可以说,我从来没离开过视频领域。

2000 年—2004 年在硅谷做 PC 版的视频会议,理解为 PC 版的 Zoom。Zoom 的几个创始人都是从 WebEx 出去的,WebEx 是我在硅谷工作的第一家公司的竞争对手。我工作那家公司叫 Latitude,是一家美股上市公司,专门做视频会议,那时候宽带还没那么宽,对技术要求高。

AI 科技评论:你本身是学 AI 的吗?

罗江春:是的,我正儿八经学 AI 的。

我本科就读于清华,1997 年—2000 年在美国莱斯大学就读人工智能与机器人专业,研究算法。那个时候的算法要求比现在高,因为机器不行、没有数据,而且没有 GPU,只有 CPU,但能力也不行,算一个东西花的时间比较长。

AI 科技评论:你从 AI 行业转到视频会议行业,算是跨界吗?

罗江春:其实没有。2000 年我开始工作的时候,人工智能还不成熟,图像识别的准确度不到 60% ,几乎与人抛硬币的概率是一样的。但是那时候要求高,要算的东西多。

AI 科技评论:那个时候 AI 专业出身,跑去做搜索引擎的是不是比较多?

罗江春:有做,但搜索引擎当时还不是人工智能的主要方向,做索引、数据库这样可用于搜索引擎的通用性技术的人多,比如李彦宏。

刚才说到人工智能跟视频有没有关系?其实两者之间最大的结合是从推荐开始的。

最开始是亚马逊用人工智能技术做推荐,来推荐书。后来,我们所有做长视频的人都在参照这个模型,要么做 user base,要么做 item base,即要么基于用户行为,要么基于电影等视频的相似度来做管理性推荐等。

AI科技评论:风行是从什么时候开始用AI推荐做长视频的?

罗江春:风行在 2005 年开始做视频,差不多是从 2009 年—2010 年开始用推荐做长视频。这个模式在当时是开放的,大家都是这样想的。

风行当时是推荐电影,与亚马逊推荐书是一样的。书和电影抽象出来背后的逻辑很像:有限数量、精准标签,而且需要长时间阅读/观看。但电影与长、短视频相比,它的数量是有限的。

当时风行在用人工智能做推荐的时候,还没有Hulu这家公司。

AI 科技评论:当时风行用 AI 做推荐是出于什么考虑?

罗江春:当时风行用AI做推荐,是想做一个 Video Google 模式,爱奇艺后来应该也尝试过。

所谓 Video Google 模式,就是大家可以用 Google 搜索全网内容,但搜不了视频里面的内容,直到现在,这个问题都没有一个足够好的产品来解决。那么,我们就想用 AI 推荐在长视频中接近这一目标。

因为相较于短视频,长视频最大优势是时长,但这也是最大劣势,商业化空间小。一部长达 90 分钟的电影,其实没有太多的商业化机会,只能插几个广告,还会被用户嫌弃。我做长视频这么多年,一个很深的体会就是它的时长被浪费了,很难商业化,如今这个问题也没有完全解决。

但抖音、快手不一样。

按照一个短视频时长为 15 秒来算,刷4个短视频才耗时 1 分钟,中间插播几个广告用户不会觉得那么烦,而且短视频的信息密度很高,所以商业化空间就会很大。

AI 科技评论:当时风行用 AI 做推荐,是如何给AI做语料标准?

罗江春:我们是“打标签”。比如在电影某个场景中,三个人围着桌子聊天,桌子上放了一杯星巴克,风行想的是,能不能把咖啡用标签标示出来?等大家搜星巴克的时候就可以搜到它,基于此做一堆关联广告。

另外,能不能替代它,把它换成 Costa?或者实现“伴随”,场景中出现星巴克的时候,可以在下面浮动一个文字链接,或者在播放框上浮动一个“去哪里购买”之类的标签。这些我们都尝试过,当时的点击率还挺高,可以达到1%。

当时风行用 AI 做推荐产生了几百万元的收入,看似成长性很好,但在风行彼时几亿的盘子,占比很小。

与短视频碰撞的第一次火花

AI 科技评论:风行有没有尝试过短视频?

罗江春:尝试过。

移动互联网开始没多久,风行推出两个短视频 APP,其中一个叫“快看”,反响很好,那时候国内做短视频的还很少,头条当时只有图文,没有短视频;快手也只是 gif,没有完全转成视频。

我们当时想做一个类头条的短视频 APP。当时字节跳动的办公室就在我们楼上。

但后来,风行就没再做短视频,在短视频上落后其实是投入问题,当时大股东们更希望我们多做一些长视频、互联网电视等。

AI 科技评论:风行错过短视频,会不会觉得遗憾?

罗江春:回顾过去,从股东们的角度、结合风行的优劣势来看,这个决策也没错。当然如果当时有一个水晶球告诉我们 5 年以后短视频将迎来巨大市场,我相信我们也会转战短视频,但没有如果。

当时,我们主要瞄准的是优酷、爱奇艺的长视频领域。从 2006 年我们就开始想,PC 时代,BAT 一定会全面拥抱长视频,那么我们只有两条路:要么投降,与 BAT 合并,要么自己找条路。

我的性格是不愿意与别人合并,那就去找伙伴与他们“对打”。要找有内容、有营销广告、有商业化能力、有渠道的伙伴,那只有电视台。当时有好几家电视台,最后选择了东方卫视,推行“台网融合”模式。

风行选择东方卫视是觉得上海更加市场化、高大上,引入 NBA、达人秀等这些高级内容,学习海外电视节目模式,比较海派,但缺少像湖南卫视快男快女之类的现象级节目,后来又错过了好声音这个机会。

AI 科技评论:你觉得为什么风行没有走通“台网融合”?

罗江春:从战略角度来说,“台网融合”模式是正确的,就看电视台能不能下定决心。

“台网融合”模式的逻辑就是“4 个联合”:联合制作、联合播出、联合营销、联合售卖。

后来,湖南卫视吸取了风行教训(没有完全独家),把这套方法论学去了,而且最后“4 个联合”的方法论在湖南芒果卫视真的奏效了,芒果成了这几家里面唯一一家能挣到钱的。

创立一览科技 ToC 和 ToB 的“两条腿走路”

AI 科技评论:你在风行待了十年?

罗江春:我 2015 年从风行离开,休息了一年后,2017 年 9 月创办了一览科技。那个时候就开始考虑 AI 如何与视频做结合。一览科技,寓意一览无余,我们希望看清楚视频里面是什么。

最开始的时候,我们可能连商业计划书都没写好,但因为看好赛道和团队,IDG就投了我们。

当时抖音还没起来,快手也刚开始尝试商业化。

AI 科技评论:如何理解一览科技的定位:技术和技能领域的短视频?

罗江春:一览科技是想切知识和技能领域。因为包括抖音、快手、以及 BAT 的一些视频号都在做娱乐,而我们想做的是技术和技能,希望短视频有用。最开始的时候,一览科技就是 ToB 和 ToC 一起做。

ToC 端产品竞争很大,我们做的是 How to 类的内容。

我们做过研究,YouTube上How to 类的内容播放量占 8%,西方人已经用 YouTube 去解决问题了。比如奥迪车钥匙怎么换电池?婴儿车怎么装安全带?

所以我们认为这个赛道有机会,我们希望短视频有用。

在 ToB 端,我们采用梯形策略,自己做中台,同时赋能给客户,比如华米 OV 、招行等,都是我们的客户。你可以把一览科技理解为一个视频版的声网。

ToB 路线挺有效,小米视频、华为视频、小米浏览器、华为浏览器等我们都合作了,因为他们需要做这个东西,但可能不会专门搭建一个像我们这样的专业团队。

AI 科技评论:你之前没有做过 ToB 路线,为什么一览科技一开始就这样做?

罗江春:一方面,这是我第二次创业,投资方给的资金比较充足,团队规模也更大,所以切B端是希望两条腿走路,至少比一条腿走路的成功率更高。

AI 科技评论:现在一览科技主要是提供 ToB 产品?

罗江春:是的,因为 ToB 路线跑出来了。如果专注 ToC 路线,那简直是火星撞地球。2018 年的时候,抖音、快手,以及腾讯视频号等花费数十亿元做推广,在这样情况下,我们只花了5000万元,结果可想而知,根本推不动。

所以我们赶紧收手,All in ToB,开始走 VaaS (Video as a Service)路线,琢磨客户需要什么视频服务。结合这几年的经验,我们发现,越来越多的企业、组织需要视频服务,但是不想从头做,所以我们认为 ToB 路线是对的。我们给别人做工具,做解决方案,别人直接调用就可以。

从 RGC 到 AIGC AI 大模型重塑视频创作

AI 科技评论:关于 GPT ,你是什么时候关注大模型,并决定使用?

罗江春:我们做 ToB 向的解决方案,一直认为内容应该有三种生成形态,PGC、UGC,以及 RGC(Robotics Generated Content),现在大家更习惯称之为 AIGC。

我们早期就进入用 AI 生产内容这个赛道。从 2018 年有 GPT-1 的时候就开始关注,大概到 2020 年,GPT-3 出现的时候,我们开始真正使用。GPT-1 和 GPT-2 确实还不太行。

AI 科技评论:你刚才提到大模型结合 RGC 的核心元素包括哪些?

罗江春:RGC 有核心三个元素,脚本、素材、剪辑后期。

脚本是一个很重要的东西,而素材包括图片、新拍的镜头等,声音相关的东西包含配音、(背景)音乐、音效等一系列声音元素,最后再把它们剪辑在一起。

从 2018 年开始,我们就围绕这三个元素进行探索,一个个去实现。但脚本的自我生成不太成功,这是整个行业都没解决的问题。脚本相当于是一个剧的剧本,这也是我们为什么先出“AI 编剧”这款产品。

说实话,作为一个创业者而非教授,在创业时,我们既要考虑到素材的积累,也要考虑到赚钱的问题,它得是一个商业闭环。但是,以自己独立做大模型的方式去生成脚本,对于我们这种公司来说太难了,可小模型又解决不了脚本的创作、创新问题,所以我们不做大模型,而是在大模型上做应用。

AI 科技评论:在国内外范围内,一览科技的对标企业是谁?

罗江春:没有对标产品,我们现在应该在全世界范围内,第一家全流程、全产业链在做的公司。但如果从“AI 编剧”这个产品来说,我们对标的是美国一家公司——Chatsonic。

可以说,不管是图像生成、大模型,还是视频生成领域,目前中国还没有一家企业能站出来说自己可以与这三个领域内的顶尖公司对标。

而我们在做的就是一步步前进,比如针对 RGC 的三个核心要素,先用“AI 编剧”把编剧的时间节省下来,紧接着是素材、剪辑后期,到一年半以后也许能够完全生成一个很不错的东西。那个时候,也许我们会比较有底气说,与 Runway 这样的公司比较一番。

AI 科技评论:在新一轮的革命性技术潮流中,你认为中国队怎么才能不掉队?

罗江春:我们最近也在思考这个问题,为什么大模型这样的东西是美国人先做出来的?我觉得其中一个原因是我们的创业者中没有像马斯克、 Sam Altman 这样 crazy 的人,所以一旦出现革命性技术的时候,中国在这方面是有差距的。

但我们有自己的强项,那就是追赶。

AI 科技评论:如今国内很多公司都推出了 AI 大模型,你怎么看?

罗江春:我比较看好像王小川这样的人才,他本身就是搞技术的,能沉下来心做事,如果愿意扎扎实实从底层追赶,反而是有机会的。这种情况下,追两年是有机会能追到类 GTP-3. 5 或 GTP-4 水平。当然,这需要足够的金钱、算力,以及海量 GPU。

从某种角度上来说,创业公司没有包袱,可能会比大公司更容易跑出来。大公司已经在很多方向上做得比较深,如果想掉头换方向很难,反而是纯粹的创新公司,他们没有包袱,可以拼劲全力追赶。虽然这里面可能有很多坑,但是 OpenAI 已经证明这条路线能走通,那么我们是不是也能走通?

所以,在这一波浪潮中,存在很多、很大的机会,一切皆有可能。

1683355578924387.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章