AIGC杀手级应用呼之欲出,魔珐有言卡住了视频C位

HelloKitty 2024-04-23 17:52

扫一扫 在手机阅读、分享本文

1739

本文由 罗超Pro 撰写/授权提供,转载请注明原出处。

本文来源:罗超Pro

作者:罗超

2024 年,在 Sora 爆发后,视频 AIGC 如雨后春笋般爆发,AIGC 热度居高不下。然而,AIGC 当前正面临着“叫好不叫座”的场面——跟 5G、XR 等技术面临的境况相似。

互联网上充斥着关于 AIGC 新品或更新的报道,且大多数的标题都显得耸人听闻,比如《3300 万剪辑师被革命, Sora、Pika、Gen-2 将全面登陆 Adobe》《Sora“炸场”,中美 AI 差距有多大?》《微软炸裂级单图生数字人,Sora 同款思路,“比 AI 刘强东还真”》。

对大多用户来说,“革命”、“炸场”、“炸裂”的产品都遥不可及,要么根本没法体验,要么不知道能用来干什么。虽然有一些投机者靠售卖 AIGC 课程赚得钵满盆满,但真正像微信、百度、淘宝一样被人们日常用起来的 AIGC 产品几乎没有。

任何技术只有应用到场景,解决实际问题,才能体现出价值。落地,成了大模型的头等大事。百度 CEO 李彦宏在最近的百度 AI 开发者大会上说:“大语言模型本身并不直接创造价值,基于大模型开发出来的 AI 原生应用才能满足真实的市场需求。”在联想、360、阿里云等公司的活动上,高管都在讨论同一个话题:让大模型落地,转化成 AIGC 应用。过往的一次次技术革命已展现出一条规律:杀手级应用是一种技术真正走向大规模应用的“奇点”。

庆幸的是,在视频 AIGC 领域,我观察到已经有一些更务实的产品在默默壮大,甚至大有成为 AIGC 杀手级应用的势头——比如3D视频AIGC明星公司魔珐科技旗下的有言。

Sora 很伟大但仍在“概念机”阶段

2024 年 Sora 横空出世,所生成的以假乱真的视频震惊世人。Sora 展现出了机器从未拥有的真实世界理解与模拟能力,得益于背后的两项核心技术突破——Spacetime Patch(时空补丁)技术和 Diffusion Transformer(DiT,或扩散型 Transformer)架构,这给业界带来了巨大的启发,推动更多玩家强化视频 AIGC,比如谷歌 Lumiere、Meta 的 V-JEPA。

OpenAI 官方强调,Sora 并不完美,在技术层面,Sora 存在一些缺陷,比如难以准确模拟复杂场景的物理原理,无法理解事物的因果关系,混淆提示的时间与空间细节,最典型的就是出现了“出蜡烛火苗不动、被子没碎红酒先漏”等“视频 BUG”。

1.png

更严峻的问题在于:Sora 并不是一款商品,甚至也不是一款产品,它更像是一款“概念机”或者说“概念车”。Sora 当前并未对公众开放,即便开放也面临重重问题:

一是可靠性低导致可用性低。生成结果不确定是当前所有 AIGC 产品的致命缺陷,包括文生文 AIGC 如 ChatGPT。ChatGPT 无法取代搜索,因为它的结果不是 100% 准确,用户获取答案后一定需要去传统搜索引擎再比对。同样,视频 AIGC 如 Sora、Pika 生成视频也存在结果的不确定性,就像开盲盒一样,有时候会有惊艳的结果,有时候则会让人大失所望,用户需要不断修改 Prompt、不断重试,碰运气,且需对结果反复校验。结果就是,用户可以体验它们,在极少数场景下“玩儿一下”,但无法真正使用它们。

二是不可控不可编辑导致场景极窄。制作视频是一个精细活儿,不论是企业对外的品牌营销、产品营销、社媒运营、大型活动、电商运营、专题栏目、企业内训等高频视频场景,抑或是内容创作机构对外输出的资讯、评测、Vlog、短剧等视频,都有着“大量信息浓缩在短视频中”的信息高密度特征,需要专业剪辑人员精准配置素材,如 BGM、提示词、转场动画、动图、特效,同时在角色、场景、灯光以及道服化上都要有主动创意设计。Sora 们最多只能生成创意类素材“贴片”,哪怕时长增加生成的视频也很难被直接应用(比如被自媒体直接发布到平台),创作者必须要进行再次编辑。

在联想 TechWorld 上,杨元庆就指出,AI 不是取代谁而是“增强智能”,是提效工具。著名导演陆川则指出,AI 对影视工业的价值是“极大提升创意的视觉化速度”,但却不可能取代人的创意。因此,视频 AIGC 生成内容的可控可编辑至关重要。

三是目前依然缺乏跑得通的商业模式。一个技术要从“概念产品”成为“产品”,关键是要能真正被用户使用起来,解决用户在具体场景中的具体问题。而一款产品要成为商品,则要有对应的商业模式。对于技术产品来说,商业模式的成立更重要:只有商业化才能持续反哺技术的进步。然而,当前的 AIGC 产品,包括 ChatGPT、Sora 在内都没有成型的商业模式,比如谷歌母公司 Alphabet 董事长 John Hennessy 就曾表示,基于大型语言模型的搜索的成本可能是标准关键词搜索的 10 倍,再加上体量不够没有广告等商业模式,ChatGPT 很难大规模普及。今年 2 月 ChatGPT 官网停止 Plus 付费订阅项目的购买注册,原因是“需求量太大”导致算力跟不上。

因为结果不可靠不确定、不可控不可编辑、不可商业化三大原因,包括 Sora 在内的诸多视频 AIGC 以及大部分其他 AIGC,都停留在概念阶段,只能被称为“娱乐 AI”,而不是真正可用的商业级或者说生产级 AI,这是当前 AIGC“叫好不叫座”的症结所在。

可商用是 AIGC 落地的重中之重

AIGC 是人类迄今为止发明的最复杂的技术之一,它让人类看到了 AGI(通用型人工智能)的曙光,打开了机器“无所不能”的全新想象空间。因此面对 AIGC,人们如同原始人祖辈发现火种一样兴奋是完全可以理解的。在 AIGC 发展进程中,OpenAI 等行业巨鳄持续研发更强大的基础大模型技术,永攀技术高峰也不可或缺。

而在 AIGC 落地上,推出可商用的产品则是绕不过的一步。可商用产品可以没有 Sora 炫酷,但一定要能实实在在解决人们生活与工作中的问题,哪怕是小问题,只有这样才有人愿意买单,才能让 AIGC 成为商用产品。

在视频 AIGC 领域,魔珐科技旗下的有言就给出了另外一种解法。依托魔珐科技在 3D 虚拟人与 AIGC 上多年的技术积累以及垂直场景锤炼,有言采取了与 Sora 等市面上主流视频 AIGC 产品截然不同的产品思路,成为行业首款生成结果可靠、可控、可编辑的商业化视频 AIGC 产品。

2.png

(图源:魔珐有言官网)

在产品实现上,有言采取的是“增强智能”的思路,也就是说不是将一切工作丢给 AIGC,而是用 AIGC 技术来提升 3D 视频生成的效率、质量与创意。

在 AIGC 技术爆发前,魔珐科技就已实现 3D 虚拟人和 3D 内容的工业化生产,服务了各行各业的超 200 家企业客户。自研的全栈 AIGC 技术则给魔珐科技带来了重塑 3D 视频生成技术的机会。

今年 3 月, “魔珐有言 AIGC 一站式 3D 视频创作平台”正式上线对公众开放。跟 Sora、Runway、Pika 等视频 AIGC,以及 Synthesia AI、Heygen、腾讯智影、字节即创、商汤如影等 2D 数字人生成不同,“魔珐有言”结合三维图形学技术与 AIGC 技术,让视频 AIGC 结果可控可靠、可编辑,进而具备前所未有的实用性。

“魔珐有言”并没有将“创意”全部交给 AI 来做,而是将 AIGC 糅合在现实世界人类制作视频的流程中,让视频制作提效降本、降低门槛。人类用传统方式制作视频时,需考虑角色、场景、运镜、灯光、屏幕内的素材等视频要素,有言在进行 3D 视频生成时,也会基于 3D 人物、3D 场景和灯光、3D 镜头、素材(屏幕)等要素,让对应要素可 AIGC,同时再进行智能合成,最终渲染生成 3D 视频。

在魔珐有言内还内置了海量视频模版案例库,用户生成视频可选择视频场景、人物形象、声音动作等模版,再输入自定义内容(如台词)进行 3D 视频内容生成,这一过程用户可对人物、动作、场景甚至相机镜头角度进行编辑。

3.png

(魔珐有言官网展示的模板库)

在体验后我发现,“魔珐有言”确实不如 Sora 们炫酷,生成的视频也并非主打“惊喜创意”,它也不会承诺用户“给一句话就丢出一个完整视频”,而是提供一种全新的 3D 视频创作模式,让人们可以快速定制 3D 视频,特别是拥有人物形象和准确讲解的 3D 视频。

通过海量模板化的 3D 预置内容、原子化的 3D 视频素材,有言做到了 3D 视频生成结果的可靠可控可编辑,规避了其他视频 AIGC 的缺陷。在使用魔珐有言时,我感觉它在易用性上已经足以跟剪映等 UGC 视频剪辑工具看齐,而最大的突破在于让创作者省掉了视频拍摄与录制环节的许多工序,比如场地、演员、灯光、摄影等,进而大幅缩短了视频制作时间、降低了视频制作成本。

4.png

(魔珐有言具有高度的结果可靠性、可控性、确定性和可编辑性)

“不是最炫酷的,却是最实用的”,魔珐有言也成了许多务实的企业的选择,在上线前就已有近 50 家各行业头部客户付费购买其企业旗舰版产品,其中包含东吴证券、中金财富、广州广电、苏州广电、海尔集团、方太集团、老板电器、斯凯奇、中伦律所、爱尔眼科、自然堂、金巴厘集团等头部企业,覆盖金融、广电、 3C、美护、文旅、政府、律所、酒水、教育、培训、医美等多个领域。企业基于魔珐有言生成的视频,用在品牌推广、社媒运营、产品营销、企业内训、广电传媒、知识分享、K12 教育、电商、本地生活等场景。

5.png

(魔珐有言生成的酒店欢迎介绍视频截图)

在视频已成为信息传播的主要载体时,企业正在积极抓住视频化的机遇:

. “刘强东数字人”出道,周鸿祎、雷军等企业家直播颠覆行业表明,每个企业家以及高管都将用数字人与用户沟通;

. 家电 3C 汽车等行业正在从“一年一场发布会、旗舰产品才有发布会”,升级到“天天都有发布会、款款产品都有发布会”的营销新阶段,在线发布会日益盛行,高成本的真人录制模式必将被数字人发布会取代;

. 淘宝、京东等电商平台的商品介绍页面以及产品使用手册已全面视频化。如何让商家每一个商品都拥有视频手册,以吸引用户下单和提升售后体验,正在成为电商行业攻克的新难题;

. 在直播带货盛行的今天,成本巨高的达人直播已不适合大多数企业,“店播”成为主流,低成本且全年无休的数字人店播日益受商家欢迎;

. 金融行业全面在线化,“数字虚拟经理“成为在线金融服务的标配,可互动、可服务的数字人客服正在被引入到更多银行等金融 App;

. 自媒体全面拥抱视频化浪潮,不愿意或者不适合或者没时间出镜的博主,正在探索用数字人来打造自己的 3D 数字人虚拟主播;

……

只要是创作视频的场景,都是 3D 视频 AIGC 应用的潜在场景。在这样的背景下,魔珐有言被许多企业抢先试用,且用了起来。以海尔集团为例,有言已经深度融入了海尔集团的中台系统,作为 AIGC 工具赋能海尔营销、平台服务、研发、电商、数字化等各个业务线。应海尔集团需求,魔珐有言首批已为其开通 100 个有言账号,提供给 6 大职能部门约 400 多人使用,两个月以来一共生产了共计 600 多支总时长达近 3000 分钟的各业务线视频,平均每日生产视频数量达到 30 多支,其中培训类视频制作成本降低了 50%。

6.png

(图源:魔珐有言官网)

企业为什么能将魔珐有言用起来?原因无他:基于魔珐有言进行 3D 视频 AIGC,不只是可以大幅降低视频制作成本,更可在更短时间生成更多 3D 视频,进而更好地拥抱视频化浪潮。由于魔珐有言可以实实在在给企业解决问题,实现大规模低成本的 3D 视频生成、企业也愿意为此付费,这也让魔珐有言成为第一款跑通商业模式的视频 AIGC 产品。

面对新技术,人们习惯高估其短期爆发力,却低估长期应用价值。在一些媒体推波助澜下,当下人们对 AIGC 以及大模型技术有诸多误解,期待过高,甚至以为其无所不能且可“一键使用”。当一些企业在试图寻找 AIGC 产品,往往发现这些产品并未未真正产品化,不过是 AIGC 的半成品,于是往往会“大失所望”,甚至因此对 AIGC 技术“拔草”。这就像早期的 VR 设备一样,当技术不成熟、体验不完善、不完整就推给用户时,往往会差评如潮,劝退用户。更务实的魔珐有言无异于视频 AIGC 的一股清流:虽然看起来似乎不那么炫酷,但却能解决问题,这就足够了。

视频 AIGC 的杀手级应用要来了

在技术发展进程中,技术产品化、产品商用化是技术落地的两大环节,前者让技术有落地场景,后者则可通过商业回报反哺技术投入,降低技术成本,给技术普及奠定基础。在技术不断发展的进程中,都会出现一个杀手级应用出现的“奇点时刻”,用户规模大规模增长、技术成本数量级降低、用户体验也会得到显著提升,技术发展由此从量变走向质变。

纵观历史上每一次技术变革,从孕育到爆发都会经历相似的曲线,其中最关键的一个节点就是杀手级应用的出现:如果一直没有出现,这项技术往往会被打入冷宫;一旦杀手级应用出现,这项技术就将走向彻底的爆发。

. 在 3G 网络的发展中,iPhone 是杀手级应用,它给了用户使用 3G 网络的理由;

. 在移动互联网发展中,微信是杀手级应用,它让每个人都有在手机购买流量上网的冲动;

. 在 4G 网络发展中,抖音是杀手级应用,人们需要更快的网络来看流程的直播和高清的视频;

. 在深度学习发展中,Siri 是杀手级应用,人们第一次体验到了用自然语言与机器交互的奥妙;

. 在电动车发展中,特斯拉 Model S 是杀手级应用,它开启了电动车普及的宏图篇章;

2024 年,行业一直在讨论,AIGC 以及大模型的杀手级应用到底是什么?在罗超 Pro 看来,一款杀手级应用必须具备如下特征:

1、商用潜力大,有刚需,被用起来,有人愿意买单。

在百度百科中,杀手级应用(Killer Application)是指某个非常有用的计算机程序,并且是消费者愿意为这个程序而为技术买单。是的,“非常有用”,有用到消费者愿意因为它而“买单”某项技术,这是关键——这里的“买单”不一定是付费,也可以是免费但要承担“看广告”等其他成本。

在短视频直播爆发前,很多用户并没有升级到 4G 网络的欲望,因为使用 3G 网络足够了,短视频直播的出现,让人们愿意为 4G 花钱,成为 4G 爆发的前提。如今,数百家企业付费购买也足以说明有言具备“用户愿意买单”这一特征,反观其他主流 AIGC 产品,则大都难以“卖钱”,比如 Sora 依然是 Demo 类的非商用概念产品,ChatGPT 因缺乏真实场景难以被大规模使用。

2、产品足够好用易用,低门槛吸引更多人用。

其实在 iPhone 出现前,市场上就已有诺基亚、黑莓等功能手机以及 PDA(掌上电脑),它们可以拍照、可以听音乐,甚至可以安装手机版 QQ 等软件,还能玩一些简单的游戏,然而因为鼓捣门槛高这些设备只能在发烧友中普及。通过 iOS+AppStore,iPhone 给用户提供前所未有简单易用的智能移动设备使用体验,开创了智能手机这一革命性品类。

在有言出现前,市面上也有一些数字人创作平台或者 2D 数字人工具,然而却不够好用且生成的视频质量差。因为只有人物唇形的 AIGC,其他数字人动态则只能依靠录制视频片段的重复播放,因此讲解内容单一枯燥,且因为依靠录制视频,所以数字人动作肢体都无法被修改和 AIGC 生成,无法被用作生产工具。有言提供了一站式 3D 视频生成服务,3D 虚拟人动作、表情都为 AIGC 生成,生成内容流畅生动。此外有言 AIGC 生成的 3D 视频可靠、可控、可编辑,使用门槛低,哪怕没有经过专业剪辑训练的人也可以上手,真正做到了傻瓜式的 3D 视频生成,解决了企业日常的视频生成问题。

7.png

(魔珐有言生成的剃须刀种草视频)

特别值得一提的是,除了企业/组织的视频创作外,有言创作的视频还可被应用在更广泛的场景,比如知识分享、社交互动、工作汇报等。据魔珐科技透露,有言几个月后将上线 3D 虚拟人 AIGC 功能,用户甚至只需上传几张照片就能即刻生成个人的 3D 虚拟人视频,对此罗超 Pro 将保持密切关注。

3、产品的商业模式能跑通,可以获取源源不断的收入。

在特斯拉 2012 年推出第一款 Model S 时,它已成立 9 年。在 2008 年,特斯拉就交付了第一款纯电动汽车 Roadster,然而因为体验不成熟、价格极昂贵(当时要 14 万美元起)、市场认知弱等原因未能普及,当时的特斯拉经营困难,差点卖给 Google。Model S 的大获成功让特斯拉构建了商业正循环,彻底扭转了不利局面。

因此,商业模式跑通是杀手级应用的另一特征:一方面要有人愿意买单,另一方面用户愿意付出的成本可覆盖生产研发以及运行的成本。唯有如此,产品才可以赚取收入来反哺技术,让技术不断精进持续提升用户体验,同时更大规模地推动技术成本降低,进而形成正循环效应。AIGC 技术更是如此,用的人越多越智能、越便宜,只有商业化才能促进 AIGC 产业链形成规模效应降本,才能获取用户反馈不断驱动技术进化。

8.png

(图源:魔珐有言官网)

魔珐有言正好具备以上三大特征,是视频 AIGC 潜在的杀手级应用,在未来有望成为企业视频制作的标配工具,带动 AIGC 技术走向更大规模的爆发、更大程度的普及。在视频 AIGC 的浪潮中,魔珐有言不是最炫酷的玩家,但它却走了一条更务实的路。结合中国市场优势做更接地气的应用级产品,是许多中国科技公司践行成功的路,我也相信魔珐科技有言正走在正确的道路上。

*插播一条消息:在全球化的时代浪潮中,AI+跨境电商正迎来前所未有的发展机遇,为了让不同领域的企业聚集在一起,展示在AI跨境电商领域的服务和产品,促进行业内的信息流通和合作机会,白鲸跨境与白鲸技术栈正在招募一群富有激情和创造力的伙伴,共同绘制AI+跨境电商的生态图谱!如有感兴趣者,可点击下方链接进行报名。

AI+跨境电商图谱招募令报名链接:https://www.baijing.cn/activity/1636

微信图片_20240222160346.png

1711682390_pic_real.jpg

微信图片_20240313155219.jpg

微信图片_20240207151541.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章