又热闹了！OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级…

HelloKitty • 2024-09-25 16:47

扫一扫在手机阅读、分享本文

4648

本文由硅星人Pro 撰写/授权提供，转载请注明原出处。

文章来源于：硅星人Pro

作者：Jessica

今天真是 AI 圈久违了的热闹一天啊！

昨天刚被奥特曼发的那篇 AI 小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。

奥特曼想临门狙击的正是宿敌 Google，更确切地说，是 Google 今天刚刚更新的两款升级版 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

狙击方式简单粗暴：直接宣布万众期待的 GPT 语音功能今天起正式开放。

两个小时不到，就双叒抢走了 Google 好不容易的高光时刻。我要是 Google 我得气吐血吧。

GPT 高级语音来了，会 50 多种语言

OpenAI 称，ChatGPT 的高级语音模式（Advanced Voice Mode）将在本周内逐步向所有 Plus 和团队用户推出。

在人们耐心等待的同时，团队完善了部分功能，包括新增自定义指令、记忆功能、5 种新声音，并改进了口音。

由于实在被大家念叨了太久，OpenAI 特别表示了一下：“它能用 50 多种语言说出’抱歉，我迟到了‘。”

并且放了一个从英文切换到普通话的示例：“奶奶对不起，我迟到了。我不是故意让您等这么久的，我可以怎么补偿您呢？”

——好家伙，这一下子都当上 GPT 的奶奶辈了，硬逼着我原谅你啊。

视频中可以看到，语音模式现在以一个跳动的蓝色球体表示，而不是 OpenAI 在 5 月展示技术时使用的黑色动画点。

当获得访问权限时，应用内会弹出一个提示。先是对 Plus 和 Teams 层级用户开通，下周起扩展到企业和教育用户。

ChatGPT 还添加了五种新语音以供体验：Arbor、Maple、Sol、Spruce 和 Vale。至此，加上之前的 Breeze、Juniper、Cove 和 Ember，ChatGPT 的语音总数已达到了 9 种（Google 的 Gemini Live 语音数量为 10 种）。

可能你也注意到了，这些名字都是从大自然中汲取灵感的，从“枫树”、“微风”到“太阳”、“山谷”，也许是为了让使用感觉更加自然。一个缺席的声音是 Sky，也是 OpenAI 在春季发布会时展示的语音，因涉及与电影《Her》主演斯嘉丽·约翰逊的法律争议而下架。

OpenAI 还将 ChatGPT 的一些定制功能扩展到了高级语音模式，包括允许用户个性化回应的「自定义指令」功能，以及允许 ChatGPT 记住对话供以后参考的记忆功能。

比如下面视频里，在系统设置的自定义 ChatGPT 菜单中，输入 “我的名字是夏洛特，我住在旧金山湾区。”再询问周末户外活动时，GPT 就会以夏洛特称呼用户，提供符合本地天气和交通的建议。

OpenAI 称团队改进了部分外语中的响应速度、流畅性以及口音。语音会根据对话语气进行调整，你可以创建场景，提示它扮演不同的角色。声音延迟非常低，理解力也更强，真的像是和另一个人自然对话。

不过 OpenAI 四个月前展示过的视频和屏幕共享功能此次并未更新。当时工作人员向 GPT 询问纸上的数学题和电脑屏幕上的代码，通过自然语音对话获得了实时解答。目前，OpenAI 尚未提供这项多模态功能的推出时间表。

此外高级语音模式也暂时不对欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放。

尽管如此，终于能亲自上手 OpenAI 版的“her”，对已经混 AI 圈混到审美疲劳的人们来说，确实算一件值得兴奋的事了。加上才制造了一波热潮的 o1-preview，OpenAI 又妥妥硬控业界一周。

这一激动也把大伙儿整地间歇性失忆了：

话说 Google 今天是发了个啥来着？

Gemini 1.5 升级两款新模型，价格减半，速率提升

Google 这次的更新其实也很重磅，至少对于开发者来说。

根据 Google Blog，这次他们更新了两个生产级 Gemini 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。所谓“生产级”，是指 AI 模型经过了充分的开发、测试和优化，已准备好商业化部署，能处理大量用户请求、应用于产品服务中，而不仅仅是用于实验或研究。

作为今年 5 月 I/O 大会亮相的 Gemini 1.5 系列模型的重大升级，新模型更快、更强大，也更具成本效益。

主要亮点概括为：

1. 价格大幅降低：1.5 Pro 的输入和输出价格下降约 50%，大幅降低了构建成本，尤其是对小于 128K token 的提示。

2. 整体质量改进：尤其在数学、代码生成、长文本上下文和视觉任务上的性能提升显著，包括在 MATH、HiddenMath 等基准测试中提高约 20%，视觉和代码应用提高 2%-7%。

3. 速率限制提高：1.5 Flash 和 1.5 Pro 的速率限制分别从每分钟 1000 RPM（Requests Per Minute）和 360RPM 提高至每分钟 2000 RPM 和 1000 RPM，使开发者能够更快构建和处理任务。

4. 更快输出和更低延迟：输出速度提升 2 倍，延迟降低 3 倍，为更高效的应用场景提供支持。

5. 更简洁的响应：响应风格更简洁、成本更低，输出长度缩短 5%-20%，同时在许多话题上减少了拒绝和回避的次数，并保持高有用性。

6. 多模态和长上下文支持：1.5 Pro 的 200 万 token 长上下文窗口支持处理长文本和多模态任务，如 1000 页 PDF 或长视频的内容生成。

7. 更新的过滤设置：模型的默认安全过滤器不再自动应用，开发者可以根据需要定制模型的安全设置。

开发者可以通过 Google AI Studio 和 Gemini API 免费访问这两个最新模型。大型组织和 Google Cloud 客户也可在 Vertex AI 上使用新模型。

笼罩在 GPT 阴影下的 Gemini

但在同行对比下，不少普通用户对 Google 这次动作表达了失望，觉得这甚至算不上真正意义的“发布”。

Abacus.AI CEO、知名博主 Bindu Reddy 说，“唉，OpenAI 发布了通过智商测试的 o1，而 Google 只是对 Gemini 1.5 进行了一些小更新。他们拥有 100 倍的资源、10 倍的人才和 10 倍的所有东西，怎么会这样呢？”

尽管开发者中还是有些人为 Google 说话，比如 Reddit 讨论区就有网友表示：

“对于那些实际在构建应用并试图降低成本、增加利润的人来说，这些都是有用的东西。我正在做的应用有一个每次操作的固定成本，由 token 长度决定，这让我的利润提高了大约 30% 以上。这对大多数人来说可能没什么意思。我知道很多人会因为谷歌的这个“公告”而生气——但实际上这对开发人员来说是一个不错的更新。”

价格对半砍、速率提升、延迟降低，这些确实正中开发者下怀。但正如大家所说，吸引力也许仅限于开发者群体了。

甚至连一些开发者也嗤之以鼻：“我没看到跟 Claude 或 o1 的比较，而我们马上就要迎来下一代 OpenAI 和 Anthropic 模型。DeepMind 其实拥有远超目前的模型，但他们在走直接面向企业的路线，绕过了大众。Gemini 令人印象深刻吗？完全不，简直令人失望透顶。”

Google 对于模型的糟糕命名也被网友群嘲，认为其冗长且易混淆。

The Information 近期发布了一篇名为《Why AI Developers Are Skipping Google’s Gemini》的文章。其中通过对多位 AI 公司创始人和 Google 内部员工的采访，讲述了 Gemini 如何被开发者“抛弃”，在追赶 ChatGPT 时遇到的阻滞和困境。

比如，相比竞争对手的技术，调用 Gemini 对于开发者和企业来说过于复杂。Topology 创始人 Aidan McLaughlin 表示，他首次使用 OpenAI 的 API 仅用了 30 秒，而使用 Gemini 则花了 4 个小时。同时 Google 的大模型性能却排在 OpenAI 和 Anthropic 之后，并不值得他跨过这些障碍。

相较于 ChatGPT，Gemini 在开发者中的不受欢迎似乎是现实世界公开的秘密。

企业软件初创公司 Retool 在 6 月份对 750 多名科技员工进行的调查发现，仅有 2.6% 的受访者表示他们最常使用 Gemini 来构建 AI 应用，超过 76% 的人选择使用 GPT。

Similarweb 追踪的网站流量数据显示，6 月至 8 月期间，OpenAI 的应用开发者页面访问量达 8280 万次，而谷歌的页面访问量为 840 万次。

较小的非正式调查也提供了类似的证据。上月底，Finetune 的创始人 Julian Saks 向他在旧金山联合办公空间的 50 名 AI 初创企业开发者询问他们最常使用的对话式 AI 模型。几乎所有人都表示，他们主要使用的是 Anthropic 或 OpenAI 的模型，没有人提起 Gemini。

尽管 Gemini 模型在分析长文档或长代码库时非常有用，但许多开发者表示，谷歌的模型选项种类繁多，步骤复杂，开发者系统也与 OpenAI 的不同，更难使用。并且有时，Google 提供的不同服务还会在它自己的搜索结果中互相竞争，使得人们在试图搞清楚这些工具时很容易被“绊住”。

Gemini 因此经常在 X 上被嘲笑。安全初创公司 Xbow 的 AI 研究员 Brendan Dolan-Gavitt 本月早些时候发了一条推文，详细介绍了他通过 Vertex 开始使用 Gemini 所需的众多步骤，迅速走红。其他开发者纷纷评论区表示同情。

在一个“世界上领先的工程师都在使用 OpenAI、Claude 或 Cursor”的环境中，开发者们确实没有必要再去尝试其它。而反过来说，使用量的走低又无法让 Gemini 获得 ChatGPT 一样多的数据反馈，致使 Google 在改进模型上会面临更模糊的路线图。

失望是因为人们对 Google 期待很高

Google 正试图改变这种看法，包括通过在 X 上回应对 Gemini 的批评，将更多 OpenAI 等公司的明星技术专家纳入麾下、将部分重叠的开发功能合并等。他们还通过举办开发者活动来宣传 Gemini。

今天与 Gemini-1.5-Pro-002 推出同步进行的，还有一场 Gemini for Work 的线上活动，Google 花了大量篇幅宣讲 Gemini 目前在 Best Buy、Snap、UPS Capital、Wayfair 等公司的应用案例。据悉，他们正试图通过提供一定程度的“白手套”服务来拉拢更多大企业客户。

只是在根深蒂固的市场份额面前，Google 的反击之路可能没那么好走。

AI Studio 的产品负责人 Logan Kilpatrick 今年 4 月加入前曾于 OpenAI 负责开发者关系，他表示：“实际情况是，OpenAI 在 LLM API 开发者工具方面领先于谷歌。我们必须与他们当前在开发者中根深蒂固的市场份额作斗争。”

稍早前AI圈知名博主 Rowan Cheung 曾预告，自己完成了一个关于 AI 模型重大升级的采访，今天开发者们将迎来一个大日子。

那篇推文下面，Logan Kilpatrick 的笑脸字符表情在一大片“怎么不是 Claude Opus 3.5”的遗憾声中略显尴尬。

保守、争议、滞后是今天 Google 这位 AI 巨头给社区留下的刻板印象。Gemini-1.5-Pro-002 的推出似乎也并未打破这一僵局。

人们对这家公司的失望，都是来自对它的期待很高：这么强的实力和人才储备，却无法给世界更多的“替代”OpenAI 的选项，谁都会感到遗憾。

微信图片_20240919154755.jpg