领先OpenAI落地，讯飞版“Her”迭代20亿台终端

HelloKitty • 2024-08-26 16:35

扫一扫在手机阅读、分享本文

4170

本文由电厂撰写/授权提供，转载请注明原出处。

文章来源于：电厂

作者：商迪安

2024 年 5 月，OpenAI 的 GPT-4o 展示了堪比电影《Her》中的人机交互体验，响应速度快，能读懂人的情绪，用笑声回应开心和用温柔声音安抚悲伤情绪。

但 OpenAI 的“Her”没有来，讯飞星火版的“Her”在 8 月底就能面向全民开放使用了。

8 月 19 日，科大讯飞宣布星火语音大模型更新，正式推出星火极速超拟人交互，并将其能力落地在讯飞星火 App“小星畅聊”功能中。

这次更新后，星火极速超拟人交互响应速度更快，对话更加自然流畅，随时打断、插话之后还能秒回。情绪价值也被拉满，星火极速超拟人交互还能感知用户的情绪变化，并共情回应用户的喜怒哀乐，在表达上更加自然、更具情感，还能扮演角色的语音和人设进行对话。

对比之下，OpenAI 主打情绪读取、实时推理视觉、文本和音频以及多语言处理的 GPT-4o 没有向用户开放。7 月底，OpenAI 才选择性地向一小部分 Alpha 测试参与者开放部分语音功能。

电厂还获悉，7 月底的一周时间里，科大讯飞董事长刘庆峰和华为轮值董事长徐直军密集互访，双方或探讨基于超拟人交互技术落地应用的潜力，瞄准智能终端机器人化的巨大市场。

智能之外，情绪价值拉满

电影《Her》讲述的故事发生在 2025 年，男主人公西奥多·托姆布里是一名孤独内向的男子，他的工作是给那些不善于表达感情的人代写感人肺腑的情书。和相爱多年的妻子凯瑟琳分手后，他一直沉浸在悲伤当中。

偶然的机会，西奥多接触到一款先进的人工智能操作系统 OS1，它能够通过和人类对话，并不断学习丰富自己的意识和感情。操作系统化身为一名叫做萨曼莎的“女性”，她变得风趣幽默又善解人意，学习和进化的速度也让西奥多感到不可思议，两人很快成了无所不谈的朋友。

不需要到 2025 年，类似的情节在 2024 年 8 月就能成为现实了。科大讯飞星火大模型的极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现巨大突破，相关语音能力正在对标 GPT-4o。

在响应速度上，星火极速超拟人交互支持极速响应多轮交互，能够在对话过程中生成高质量的回答，并且响应速度更快、与 GPT-4o 响应时间相当，几乎与人类正常聊天节奏一致，并且对话中允许用户随时打断、插话，实现了人机对话的“无缝衔接”。

除了对话节奏更类人之外，超拟人交互还能够在对话中感知用户的情绪，把情绪价值拉满。它可以在对话中感知到用户的喜、怒、哀、乐、害怕、困惑等各类情绪，不仅能根据声音的内容来判断，还能像朋友一样用合适的情感回应用户。比如，用笑声回应开心，用温柔声音安慰悲伤情绪。同时，星火极速超拟人交互还能识别用户咳嗽、猫和狗的叫声等声音事件，给出对应的回复语。

以前语音交互中机器声音无法调整，但有了星火极速超拟人交互，只要用户语音发出指令，就可以控制超拟人在情感、风格、方言、强度等表达方式上做出变化，比如，“用调侃的方式给我说个笑话”、“用东北话给外地朋友介绍下锅包肉”、“说的更快一点”。

此外，星火极速超拟人交互还支持“角色扮演”，可以模仿不同的角色陪聊。比如，“模仿孙悟空的声音来和小孩子对话”，超拟人就可以模仿孙悟空的声音和人设和小朋友聊天。星火超拟人交互还可以模仿蜡笔小新、小猪佩奇等角色。

OpenAI 的 GPT-4o 迟迟不来，“中国版 GPT-4o”抢先一步落地。科大讯飞星火极速超拟人交互代表了国产大模型逐步从追赶、对标到进行自主创新的差异化路线。

超拟人交互的极速秘诀是统一神经网络直接实现语音到语音端到端建模。传统的处理方式是先把语音转成文字，在通过大模型生成回复文本，然后再进行语音合成输出，需要分三步来工作。但端到端只有一个模型，大幅缩短了响应时间，也提升了交互的拟人度和流畅度。

情感交互、语音可控等则得益于讯飞多维度的语音属性解耦表征训练准则，将内容、音色、情感、语言、风格都信息进行解耦训练。星火极速超拟人交互也因此能够更加灵活控制各类元素，还能根据需求便捷定制，让系统快速落地应用。

正因为如此，星火极速超拟人交互可以在8月底率先面向全民开放使用。科大讯飞表示，基于全新端到端框架的基础，星火极速超拟人交互目前主要开放语音模态，未来会拓展到更多模态，并带来更多更实用、丰富的功能。

但这一次语音模态的跨越式升级带来的多轮交互、语义理解、指令跟随、逻辑推理、情感共鸣，已经足以重写语音交互市场，帮助20亿台智能终端向机器人升级并驱动万物互联的第六次产业浪潮井喷。

每一台智能终端都能变成机器人

在 2023 年科大讯飞全球 1024 开发者节上，华为科技有限公司副董事长、轮值董事长徐直军曾表示，“华为公司在全球所有使用的智能终端的语音技术，都是来自于科大讯飞，而且不仅仅是中文”。

第三方机构 QuestMobile 的数据显示，截至今年 2 月，华为的活跃终端设备数量已经超过 2.8 亿台。而华为公布的数据则显示，鸿蒙生态设备数量已经突破了 8 亿台。这背后是庞大的移动物联网，工信部公布的统计数据显示，去年 5 月底，我国的移动物联网终端用户超过 20.5 亿，包括手机、家电、汽车以及初具规模的机器人。

语音是终端设备核心的交互方式之一，基于讯飞星火大模型在超拟人交互上取得的突破，终端设备可以实现“无感迭代”，从指令型终端晋升为可进行多轮交互、可感知情绪、可定制化表达的拟人机器人。

试想一下，当你的智能手机支持超拟人交互，它不仅能成为百科全书，还可以从手机升级为得力助手和陪伴者。

家中的电视机、平板电脑，能帮助孩子学习，也能为老人提供更多守护，既是家里的管家，也是家庭教师。

智能汽车中有超拟人交互，不仅可以提升内容的丰富度，也可以通过增加语音交互的场景从而保障驾驶员的安全。