语音一夜成AI圈香饽饽：GPT-RT2上线，奥特曼说爱打字的是老登？

HelloKitty • 2026-05-09 14:47

扫一扫在手机阅读、分享本文

本文由雷科技AGI 撰写/授权提供，转载请注明原出处。

以下文章来源于：雷科技AGI

作者：天星

2024 年 2 月，OpenAI 发布了 Sora。这个能生成视频的 AI 模型用极短的时间改写了移动互联网时代的内容创作方式，甚至连迪士尼都曾计划为此注资十亿美元，并计划在 Sora 2 中引入自己的核心影视 IP。但就在 26 年 3 月，OpenAI 宣布关闭 Sora，相关 API 也会在 9 月停止提供。

对此，OpenAI 的解释是「将计算资源重新分配至核心企业产品」。

那到底是怎样的产品值得 OpenAI 不惜「壮士断腕」呢？刚刚过去的四月里，OpenAI 先后发布了 GPT-Image 2.0、GPT-5.5 等新服务。5 月 7 日，OpenAI 也乘胜追击，接连上线了 GPT-5.5 Instant 和今天我们要谈的重点——GPT-Realtime-2 系列模型。

GPT RT2让 AI 像真人一样说话

简单来说，GPT-Realtime-2（简称GPT RT2）是一个全面优化 AI 语音能力的模型系列，包含原版（GPT-Realtime-2）、翻译（GPT-Realtime-Translate）和转录（GPT-Realtime-Whisper）三个分支。其中 GPT-Realtime-2 具备 GPT-5 级别推理能力，开发者甚至可以自定义模型的推理深度，在准确性、时效性和算力成本之间找到自己的平衡。

截屏2026-05-08 16.33.38.png

图片来源：OpenAI

而这些新技术的目的有且只有一个——让 AI 能像真人一样说话。

我知道，其实现在不少 AI 模型在 TTS 音色上已经和真人非常接近了，大家平时接到的运营商、银行的骚扰电话，十有八九就是 AI 打出的，在通话的「全损音质」下，想分清对方是真人还是 AI 确实有点难度。

但只要我们一张嘴，这些 AI 客服就会马上露馅，在雷科技看来，这种 AI 语音模型和真人的能力差距，主要体现在复杂任务处理能力上。以一个经典笑话举例：

下班路上买一个西瓜，如果看到苹果，就买两个。

没有推理能力的 AI 会按照自己的想法把「就买两个」的对象当成西瓜或苹果；而有推理能力的 AI 会发现这是个有歧义的病句，反过来要求用户给出更清晰的要求。再举一个例子：你要求车机「折叠副驾驶位，打开零重力模式」时，车机是否能主动推理出你要打开零重力模式的，其实是副驾驶后排的座位呢？

而 GPT-Realtime-2 的出现，就给 AI 带来了真正理解用户需求的能力。

除此之外，GPT-Realtime-2 的平行工具调用（Parallel tool calls）可以一次拉起多个组件，以响应用户的复杂语音指令；GPT-Realtime-Whisper 可以以近乎实时的速度把语音转写成文档，让「实时字幕」成为可能；GPT-Realtime-Translate 的同步翻译功能可以在对方还在说话时直接生成语音译文，效率堪比同声传译。

截屏2026-05-08 16.31.34.png

图片来源：OpenAI

毫不夸张地说，GPT-Realtime-2 的出现，很有可能会改变未来 AI 的交互方式，让语音交互取代文字，成为未来日常 AI （非工作等生产力 AI）的主要交互模式。

「老登」习惯打字，年轻人爱动口？

但话又说回来，在语音交互赛道上发力，其实是近几年 AI 赛道的共识了：

5 月 7 日千问 PC 端上线 AI 语音输入，用极强语义解析能力打造了可以用于工作场景的 AI 用例，在此之前，豆包、Claude、ChatGPT、Gemini等AI均已支持桌面语音模式，允许用户用嘴与AI交互，包括编程；4 月 27 日影石 Insta360 联手字节跳动 AI 编程平台 TRAE 推出了适用于 Vibe-Coding 的领夹麦克风；4 月 23 日涂鸦在全球开发者大会上发布了 PVAD 自训练模型和 TTS增强引擎，提出了 LUI（语言交互界面，与图形交互界面 GUI 对应）的概念。

甚至在就在今天，马斯克也在 X 上为 xAI 的打造的 Grok Voice Think Fast 1.0 语音助手宣传造势。

微信图片_20260508204219_330_23.png

图片来源：X

那为什么 2026 年的 AI 战场会落在语音交互界面上呢？OpenAI CEO Sam Altman 就提到了一个观点：

顺便提一句，年轻人似乎更喜欢通过语音与 AI 互动，而老年人以及中间年龄段的人更喜欢打字。我想知道这会不会改变。

在雷科技看来，这一现象背后不仅是习惯问题，也是年轻人与中年人思维模式的差异。对于在全时在线、触屏环境中长大的 00 后、10 后（以及诞生于语音交互时代的 20 后）来说，键盘带有浓厚的「班味」，除了打游戏外几乎不会碰。

图片来源：X

顺着这个角度想，在过去 20 年里，键鼠组合高效、精准的输入方式为 PC 的生产力工具的身份打下了基础，但也限制了我们「必须在电脑前才能工作」。而 LUI 的出现改变了这个刻板印象：起身接杯水也好、下楼透气也好，甚至只是瘫在椅子上思考时，AI 都能通过我们的「只言片语」跟上我们的思维，让灵感随时在线。

事实上，语音输入「有效信息含量低」的特点，也确实只有 AI 可以解决。以千问今天上线的 PC 端上线 AI 语音输入为例，雷科技简单体验了一下。除了基础的语音输入外，千问 PC 语音输入还可以自动过滤掉说话过程中那些没有意义的语气词、填充词。

比如在输入图中这个需求时，我几乎在每一个停顿处都加入了大量的「呃」「就是」，千问也能直接过滤掉。

截屏2026-05-08 19.03.53.png

图片来源：雷科技

不可否认的是，在办公室等公共场所使用语音输入，多少会对其他同事产生影响。但 AI 语音能力的提升，确实让语音输入在工作场景也具备了「实用性」，如果你像年轻人一样说话跳脱、思如泉涌、「脑子比嘴快」，又或者喜欢用语音输入，那千问的语音输入功能对你确实很有帮助。

从这个角度看，拥抱语音交互，本质上是 AI 巨头们在抢占这些年轻用户的市场。谁能把语音交互做稳，谁就能垄断这些年轻人碎片化时间的「交互主权」。

其实这种迎合下一代使用习惯，超前建立用户粘性的做法也并非新鲜事，MacBook Neo、Chromebook、iPad 等电子产品在海外烧钱发力教育市场，背后也是同样的逻辑。

只不过在雷科技看来，除了面向下一代的超前布局外，AI 巨头不约而同发力 LUI，背后还有别的推动力：LUI 和 AI 的的终极目标一致，都带有「永远待命、随时可用」的属性。

文字界面（TUI、命令行）也好、图形界面（GUI）也罢，经过多年的发展，这类视觉交互能覆盖的场景早已到头。但在开车、锻炼、下厨、洗澡这些「手脚被占用」的场景里，语音交互的价值仍未被完全挖掘。

以最常见的驾驶场景为例：为了填补实体按键缺失带来了交互空白，国内新能源品牌早已在 LUI 语音交互界面上发力；对着车机下超长复杂指令，也成为了大家体验智能座舱时的保留节目。

作为回应，不少车企也开始与头部 AI 企业合作，利用外部的语音大模型完善智能座舱的体验。比如在去年的广州车展上，不少车企就向雷科技透露自己的车机「融入了豆包」的能力。

图片来源：雷科技

可以说，在 AI 市场风起云涌的 2026 年，哪家 AI 企业能抢先完善 AI 语音，带领行业从 GUI 交互走向 LUI，谁就能抢先一步吃上「新的蛋糕」。

语音成了 AI 硬件交互的入口

即使我们抛开 LUI 这种长远命题不谈，从用户、智能硬件的角度来看，语音交互其实也是加速 IoT 设备转型为 AIoT 设备的捷径。

以往的智能硬件要变「聪明」，需要堆屏幕、堆算力芯片。而 AI 语音对设备端的硬件要求极低，一个用来收音的麦克风、一个处理音频数据的计算模块、一个用于跑端侧模型的算力平台（这个对部分 AI 硬件来说甚至是可选项）再加上最基本的网络连接能力，任何一个曾经不起眼的 IoT 产品，都能摇身一变成为 AIoT 硬件。

4d21419342a346de92e84ecd87b7201a.jpg@0-190-1264-758a.jpeg

图片来源：雷科技

为雷科技报道海外展会和高管群访立下汗马功劳的钉钉 A1 录音卡就是最好的例子。过去雷科技也试过不少智能录音设备，甚至买过运行端侧本地模型的智能录音笔。但受模型能力限制，这类「智能录音笔」效果通常都不尽如人意。

不过钉钉 A1 就没有这个问题了：手机里装着完整的大模型，能以近乎同步的速度输出翻译结果。而把转写、翻译的任务交给手机后，A1 里的端侧小模型也能将更多的资源用在语音拾取、降噪等方面，从源头优化录音效果。

在录音、转写、翻译这三大功能外，钉钉 A1 录音卡也充分发挥了 AI 智能体的能力，可以将录音内容直接转化为符合标准格式的会议记录、待办事项，甚至可以在基础上对内容进行二次深度理解。

而从产品多样性的角度看，除了给传统 IoT 设备「赋能」外，AI 语音交互的出现甚至催生了不少 AI 新概念产品。像科大讯飞就基于其在语音识别领域多年的技术积累，打造了包括 AI 翻译机、AI 墨水屏办公本、会议耳机、AI 眼镜甚至是 AI 键盘、AI 鼠标等产品。

尽管产品品类繁多，但按照其对 AI 技术的应用，雷科技认为这些 AI 产品依旧有一条横跨品类的「主线」——用语音 AI 丰富硬件的交互方式，从而优化产品的体验。

截屏2026-05-08 20.24.47.png

图片来源：讯飞

以讯飞的 AI 办公本为例，受限于像素响应时间，电子墨水屏设备天然就不适合键盘输入。用过 Kindle 的朋友应该对 Kindle 连 Wi-Fi、打密码的流程深有体会。这种输入手段的缺失让电子墨水屏设备长期以来只能当作单纯的「显示设备」，不具备真正的办公能力。

但 LUI 的出现改变了电子墨水屏「只有输出没有输入」的局面：讯飞星火大模型的外语和方言识别能力，解锁了电子墨水屏的输入能力，让墨水屏从「显示器」真正升级成了「办公本」。搭配图片理解等多模态输入能力，讯飞早已将电子墨水屏设备打造成了「全能办公设备」。

可以说，无论从产品、用户还是 AI 供应商的角度看，语音交互对 AI 的重要性都毋庸置疑。

中国 AI 的优势：更会听/说中文

另外，发力 AI 语音交互对国内 AI 巨头来说，其实还有另一个意义——中国的 AI 公司，天生更懂中文。

按第一语言（母语）来算，中文是世界使用人数最大的语言；按照总使用人数（母语+第二语言）来计算，中文是世界使用人数第二大的语言。

可能有人认为「懂中文」只对国内用户有意义，上升不到国际角度，但事实并非如此。雷科技前段时间去美国旧金山参加了追觅的发布会，更早之前也在巴塞罗那、柏林等非英语城市参与了海外展会的报道。

就雷科技的所见所闻而言，大量一代移民即使身处海外，也只会说中国话（主要为粤语）。很多上年纪的华人即使在温哥华、旧金山、巴塞罗那、墨尔本等移民城市生活多年，依旧过不了最基本的入籍语言关。

很显然，他们也有使用 AI 的需求，甚至对于不会打字的老人群体来说，语音交互是他们使用电子产品的唯一手段。但无论 Google 的 Gemini、OpenAI 的 ChatGPT 或 xAI 的 Grok，其对中文语音的支持都相当有限。以 ChatGPT 为例，过年策划主流 AI 助手中文和方言支持时，雷科技就发现 ChatGPT 并不能稳定、持续输出广东话，说着说着就会自动切换回英语。

对 ChatGPT、Gemini、Grok 来说，「说中文」是个不小的挑战；但对豆包、千问、Kimi、讯飞等国内 AI 服务来说，这恰恰是「与生俱来」的优势。