HelloKitty • 2025-11-25 11:48
571
本文由 AI无象限 撰写/授权提供,转载请注明原出处。
以下文章来源于:AI无象限
作者:张凯然
编辑:殷观晓
11 月 23 日,AI 音频创作平台 ListenHub 发布了新功能「解说视频」,根据创始人的说法,该功能接入了最新的 Nano Banana Pro 模型,并利用之前本身已经训练好的语音生成能力。ListenHub 的「解说视频」功能能够在几分钟内,生成“静态图片+语音解说”的科普或儿童故事视频。笔者测试下来,从上传脚本到拿到视频结果,总共用时不到 5 分钟。
ListenHub 最初主打 AI 播客生成,但与 NotebookLM 等产品将AI播客用于“个人学习”的思路不同,ListenHub 主要服务于创作者,通过“文字生成音频播客”为播客及视频创作提效,获得了不错的用户增长。而本次接入 Nano Banana,扩展“解说视频”功能,则又打通了“音频-视觉”的内容形式,根据创始人橘子的说法,“我们发现用户做完 AI 播客都是配图发视频号,于是做了一个自动配图功能,直接生成解说视频。”在上线新功能后,ListenHub 用户数量激增,我们也趁热打铁,测试了一下。

从界面上来看,“解说视频”与“AI 播客”的界面差不多,用户依然仅需输入一段文字或上传 PDF,选择内容形式(知识图解或故事演绎)和语言、音色。此外,用户还能上传参考图,自定义视觉风格,在其他用户分享的视频中,有不少用“小黄人”等动漫形象来做科普的视频,如果用户不上传参考图,也可以在输入文字内容时,指定风格,如果不上传图片、也不指定风格,ListenHub 则会生成简笔画风格的配图(如下图)。

点击创作、经过几分钟的等待后,用户就能获得一个“图片、文字、语音相互对照”的预览版,用户可以通过翻页的方式核对图文内容。
内容方面,如果用户上传的脚本比较详细,AI 仅会略微修改内容,使其口语化一点,而如果用户仅输入主题,AI 则会自行生成内容,由于是“科普”场景,测试中 AI 生成的内容也基本可以过关,没有明显硬伤。(在 ListenHub 的 AI 播客功能中,订阅用户可以修改脚本,不知道“解说视频”功能是否已经支持,但是这次测试,我们没有看到修改单页图文的选项)

为了测试质量,我们上传的自己的脚本,不是由AI生成,视频内容绝大部分遵循脚本内容
在确认内容之后,用户点击“生成视频”按钮,AI 会自动将图像和语音对齐,生成如上的解说视频。由于有此前做AI播客的技术积累,ListenHub 语音的呈现效果相当不错,足够流利且真人感强,普通人录音想达到这个程度,至少需要半小时以上,如果没有 AI 工具做粗剪来实现图片和音频之间的对齐,要花掉更多时间。但是不算编辑脚本的话,ListenHub 仅用了不到 5 分钟就完成了。
虽然 ListenHub 此前是以音频播客切入市场的,但是在 Nano Banana 更新之后,则很快上线了“解说视频”功能,打通“音频-视觉”的内容形式,最近 Elevenlabs 也转型了多模态平台,用其创始人的话说,“提升吸引力”。
数据来自SimilarWeb、点点数据、Semrush、广大大等三方平台,可能与真实数据中存在一定误差,仅供参考。

扫码关注公众号
获取更多技术资讯