视觉语音交互毫无延迟，都成精了居然还不是GPT-5？

HelloKitty • 2024-05-14 16:54

扫一扫在手机阅读、分享本文

4860

本文由硅星人Pro 撰写/授权提供，转载请注明原出处。

文章来源于：硅星人Pro

作者：王兆洋

而且在这些回答中，它甚至有喘息和犹豫的声音。

另一个很可怕的细节是，这些 demo 全程不需要任何多余的按键操作。

对，声音的对话就像是在“打电话”。

另一个 demo 是假设要给朋友讲一个关于机器人的睡前故事。

提出需求后，ChatGPT 开始正常的讲故事。

但听的人并不喜欢，于是直接打断说，能不能讲的更有感情更 drama 一点。

ChatGPT 立刻调整，增加了一些悬疑感。

“不不不，我希望把感情和 drama 感拉满。”听者再次直接打断。——也就是说 ChatGPT 在实时听着你的声音。

然后 ChatGPT 变成了一个非常浮夸的故事讲述者。

“你能不能用机器人的声音给我讲故事。”Mira 又直接插话。

而 ChatGPT 立刻开始模仿机器人。注意，是模仿，也就是它的声音一直是那个女声，一切听起来就像家长在讲睡前故事时候会做的那样。

“你能最后唱一首歌把这个故事结束么。”听者又提了要求。

然后 ChatGPT 立刻唱了一首歌。根据刚才的故事，实时，改编，并直接唱出来的一首歌。

“如果你之前使用过我们的语音模式，你会注意到几个关键的区别。首先，你现在可以打断模型了。你不需要等它结束你的回合，你可以随时开始说话，随时插话。其次，模型的响应是实时的。这意味着你不需要再经历那种尴尬的两到三秒的延迟，等待模型回应。最后，当我刚才呼吸非常急促时，模型能够感知到情绪。它会提醒你，或许你需要放松一下，你的节奏快得有点过头了。所以你知道，它确实具有全面感知情绪的能力。不仅如此，这个模型还能以各种不同的情感风格生成声音，它真的具有非常广泛的动态范围。”

如果你是个创业者，或者熟悉大模型应用创业环境的人，你会立刻意识到。

又有一批创业公司死了。

之后是视觉能力的展示。

对，在同一个产品上。一个据说要免费提供给全世界所有人的产品上。

他先是展示了一个通过摄像头获得视觉能力，然后实时指导你的数学解题的 demo。

甚至因为“幻觉”问题，ChatGPT 在还没打开摄像头时候就自信满满的说理解了。当展示者提示后，她说“oops，我太兴奋了。”

然后展示者打开摄像头，实时写了一个数学方程题，然后让 ChatGPT 一步一步的提醒和讲解他在做的解题思路。ChatGPT 很好的做到了。

像一个很有经验有耐心的数学老师那样。

这还没完。

似乎是为了打脸那些录制好加速后的 demo，他们还实时收集了 X 上的反馈。其中一个挑战是：打开摄像头让 ChatGPT 实时分析你的情绪。

展示者开始摄像头自拍，而 ChatGPT 立刻分析道：

“你看起来是个桌子。”——因为打开摄像头时，最先打开的是前置的摄像头，对准的是桌子。

“不不不，那是之前的，你不用担心，我不是个桌子。”分享者说到。

“哈哈，那就合理了。”Chat GPT 说到。

这里看的时候，估计很多人跟我一样惊了一下。

然后 ChatGPT 立刻分析：“你看起来非常开心。大大的笑容，甚至有一点兴奋。你想分享一下让你这么开心的原因么？”语气里甚至能听到好奇，以及斟酌语句的感觉。

“因为我在做实时展示，让大家看看你有多出色。”讲者说。

“哦，拜托，别让我脸红了。”ChatGPT 带着笑声说到。

瞬间，《Her》降临。科幻成了现实。

看到这，所有人估计都明白了 Sam Altman 此前卖关子时候说的“magic”是什么。

在惊叹之余，还是再总结一下：

1 这些操作全程没有多余的点击操作的交互。

2 没有丝毫延迟的视觉和声音反馈。

3 不仅能感受到你的情感，ChatGPT 也自带情绪和情感。

4 能对桌面等更数字化的世界有更全面的信息感知。

5 全部集成在一个产品里，而且可能是对所有人免费的。

哦对，以及，这还不是 GPT-5。

发布会后，OpenAI 也在官网更新了这次发布的模型的具体信息：

https://openai.com/index/hello-gpt-4o/

还记得 ChatGPT 第一次出来时，有人形容跟它第一次亲密接触的感受：

当你通过打字跟它交互的时候，等待它回答的过程仿佛能想象到对面坐着一个人，正在转笔，思考如何回答你的问题。

而今天，不只是你的叹气，情感和喘息能被AI感受到，你也能直接感受到对面的“人”的叹气，情感，和喘息。

在电影《Her》里，主人公最终爱上了这个 AI 助手。我们不知道 GPT-4o 加持下的新 ChatGPT 会带来什么。更不知道GPT-5出现后会发生什么。

一切都太快了，都回不去了。

最后，对所有开发者和创业者，这次发布又意味着什么？

也许这句当时有些被人不以为意甚至觉得冒犯的话值得再看一遍，它可能说明了一切：

目前有两种构建人工智能的策略：一种是假设模型不会改进，然后在现有的能力上建设一堆小东西；另一种是假设 OpenAI 将保持相同的增长轨迹（继续疯狂迭代）。我认为，95% 的人应该押注在第二种策略上。我们有改进模型的使命，不是我不喜欢你们，但我们将碾压你。

——Sam Altman，2023年4月17日

*插播一条消息：在全球化的时代浪潮中，AI+跨境电商正迎来前所未有的发展机遇，为了让不同领域的企业聚集在一起，展示在AI跨境电商领域的服务和产品，促进行业内的信息流通和合作机会，白鲸跨境与白鲸技术栈正在招募一群富有激情和创造力的伙伴，共同绘制AI+跨境电商的生态图谱！如有感兴趣者，可点击下方链接进行报名。

AI+跨境电商图谱招募令报名链接：https://www.baijing.cn/activity/1636

微信图片_20240222160346.png