接入「香蕉模型」，不到5分钟做出一个解说视频

HelloKitty • 2025-11-25 11:48

扫一扫在手机阅读、分享本文

571

本文由 AI无象限撰写/授权提供，转载请注明原出处。

以下文章来源于：AI无象限

作者：张凯然

编辑：殷观晓

11 月 23 日，AI 音频创作平台 ListenHub 发布了新功能「解说视频」，根据创始人的说法，该功能接入了最新的 Nano Banana Pro 模型，并利用之前本身已经训练好的语音生成能力。ListenHub 的「解说视频」功能能够在几分钟内，生成“静态图片+语音解说”的科普或儿童故事视频。笔者测试下来，从上传脚本到拿到视频结果，总共用时不到 5 分钟。

ListenHub 最初主打 AI 播客生成，但与 NotebookLM 等产品将AI播客用于“个人学习”的思路不同，ListenHub 主要服务于创作者，通过“文字生成音频播客”为播客及视频创作提效，获得了不错的用户增长。而本次接入 Nano Banana，扩展“解说视频”功能，则又打通了“音频-视觉”的内容形式，根据创始人橘子的说法，“我们发现用户做完 AI 播客都是配图发视频号，于是做了一个自动配图功能，直接生成解说视频。”在上线新功能后，ListenHub 用户数量激增，我们也趁热打铁，测试了一下。

从界面上来看，“解说视频”与“AI 播客”的界面差不多，用户依然仅需输入一段文字或上传 PDF，选择内容形式（知识图解或故事演绎）和语言、音色。此外，用户还能上传参考图，自定义视觉风格，在其他用户分享的视频中，有不少用“小黄人”等动漫形象来做科普的视频，如果用户不上传参考图，也可以在输入文字内容时，指定风格，如果不上传图片、也不指定风格，ListenHub 则会生成简笔画风格的配图（如下图）。

点击创作、经过几分钟的等待后，用户就能获得一个“图片、文字、语音相互对照”的预览版，用户可以通过翻页的方式核对图文内容。

内容方面，如果用户上传的脚本比较详细，AI 仅会略微修改内容，使其口语化一点，而如果用户仅输入主题，AI 则会自行生成内容，由于是“科普”场景，测试中 AI 生成的内容也基本可以过关，没有明显硬伤。（在 ListenHub 的 AI 播客功能中，订阅用户可以修改脚本，不知道“解说视频”功能是否已经支持，但是这次测试，我们没有看到修改单页图文的选项）

为了测试质量，我们上传的自己的脚本，不是由AI生成，视频内容绝大部分遵循脚本内容

在确认内容之后，用户点击“生成视频”按钮，AI 会自动将图像和语音对齐，生成如上的解说视频。由于有此前做AI播客的技术积累，ListenHub 语音的呈现效果相当不错，足够流利且真人感强，普通人录音想达到这个程度，至少需要半小时以上，如果没有 AI 工具做粗剪来实现图片和音频之间的对齐，要花掉更多时间。但是不算编辑脚本的话，ListenHub 仅用了不到 5 分钟就完成了。

虽然 ListenHub 此前是以音频播客切入市场的，但是在 Nano Banana 更新之后，则很快上线了“解说视频”功能，打通“音频-视觉”的内容形式，最近 Elevenlabs 也转型了多模态平台，用其创始人的话说，“提升吸引力”。

数据来自SimilarWeb、点点数据、Semrush、广大大等三方平台，可能与真实数据中存在一定误差，仅供参考。

微信图片_20230104175528.jpg