HelloKitty • 2024-10-09 16:05
1566
本文由 甲子光年 撰写/授权提供,转载请注明原出处。
文章来源于:甲子光年
作者:苏霍伊
编辑:王博
高管离职、苹果退出融资磋商,对于 OpenAI 来说,这无疑是动荡的一周。但 OpenAI 仍在坚持说服开发者使用他们的 AI 模型构建应用程序。
美国当地时间 10 月 1 日,OpenAI 在旧金山举办了 DevDay。与去年的盛大活动不同,今年更为低调,转为面向开发者的路演。
这次,OpenAI 没有发布重大产品,而是对现有的 AI 工具和 API 套件进行了渐进式改进。
他们公布了四项创新:视觉微调 (Vision Fine-Tuning)、实时 API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。
比如实时 API 的公开测试版能让开发者制作应用程序,并让其能够快速生成 AI 语音响应。这项新技术不仅响应速度快,而且提供了六种不同的声音选项,声音都是由 OpenAI 自行开发,避免了第三方版权问题。该 API 没有“复制”ChatGPT 的高级语音模式,但功能基本相近。
OpenAI 的开发者体验主管罗曼·于特(Romain Huet)还在现场演示了如何使用 o1 在约 30 秒内通过一个提示构建一个 iPhone iOS 应用程序。
于特演示构建iPhone iOS应用程序。图片来源:Romain Huet的X
过去两年,为了应对 Meta 和谷歌等竞争对手的市场压力,OpenAI 已将开发者访问其 API 的成本降低了 99%。而从新工具的脉络中可以摸索出,OpenAI 策略更倾向于增强其开发者生态系统,而不是直接在终端用户应用领域竞争。
在活动前,OpenAI 的首席产品官凯文·韦尔(Kevin Weil)提及,首席技术官米拉·穆拉蒂(Mira Murati)和首席研究官鲍勃·麦格鲁(Bob McGrew)的离职不会影响公司的长远发展。他表示尽管“人事频频变动”,但 OpenAI 仍能“维持发展势头”。
随着谷歌和苹果等科技集团竞相向消费者推出所谓的人工智能代理,OpenAI 认为 AI 助手将在明年“成为主流”。AI 助手的能力,包括推理和完成复杂任务等,已成为科技公司争夺市场的最新战场,每家希望借助这项迅速发展的技术来开辟收入来源。
“希望 AI 的互动方式能够覆盖人类互动的所有方式。”韦尔说道,“代理系统的发展将使这种交互成为可能。”简而言之,即让 AI 能够模仿或复制人类在交流和互动中的各种方式,无论是语言交流、情感表达还是非言语交流等,使得人与 AI 之间的互动尽可能自然和无缝。
除了 OpenAI,其他公司如微软、Salesforce 和 Workday 也在将代理功能置于其 AI 计划的核心,而谷歌和 Meta 也表示,将 AI 模型整合到其产品中是他们的重点关注领域。
去年,OpenAI 发布了“Assistants API”,让开发者能够利用其技术构建代理。但他们也透露,由于早期模型的功能有限,计划受到了一定的阻碍。
韦尔提到,OpenAI 最新的模型在思考和推理方面的提升将反映在其产品上,如 ChatGPT 以及那些利用其 API 构建应用的初创公司和开发者,但并未透露他们是否会立即开发自己的 AI 代理。
OpenAI 现场演示了与 AI 系统对话任务:帮助寻找并购买当地可获得的产品。比如购买草莓,随后 AI 将根据用户的指示打电话给商家下单。
AI根据提示购买草莓的演示,图片来源:Ken Collins的X
OpenAI 强调,任何利用这个技术的人必须明确表明其为 AI 而非人类,并且只为开发者提供有限的预设选项,而不能创建新的声音。
韦尔表示:“如果我们做得对,我们将有更多时间投入到重要事务上,而不再需要时刻盯着手机的时间。”
提示缓存:开发者预算的救星
“提示缓存”功能是这次活动最重要的推出之一,它用于降低开发人员的成本和延迟。
许多开发者在构建 AI 应用时会在多个 API 调用中重复使用相同的上下文,例如在编辑代码库或与聊天机器人进行长时间的多轮对话时。提示缓存通过重复使用最近看到的输入令牌,自动对模型最近处理的输入标记应用 50% 的折扣。
与各种 GPT 模型中的非缓存 tokens 相比,缓存输入 tokens 可节省高达 50% 的成本。图片来源:OpenAI
提示缓存的可用性与定价 从今天起,提示缓存将自动应用于 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 的最新版本,以及这些模型的微调版本。与未缓存的提示相比,缓存的提示提供了折扣。
对受支持模型的 API 调用将自动从提示缓存中受益,适用于长度超过 1024 标记的提示。API 缓存之前计算过的提示的最长前缀,从 1024 标记开始,以 128 标记为增量。如果用户多使用具有常见前缀的提示,OpenAI 将自动应用提示缓存折扣,用户则无需对 API 集成进行任何更改。
缓存通常在 5 到 10 分钟的不活动后被清除,并且在缓存最后使用后的一小时内总是被移除。与所有 API 服务一样,提示缓存受 OpenAI 的企业隐私承诺约束。提示缓存不在组织之间共享。
成本的显著降低为各类企业开发以往因成本过高而难以实现的新应用提供了机会。
OpenAI 平台产品负责人奥利维尔·哥德门特(Olivier Godement)在 OpenAI 旧金山总部举办的小型新闻发布会上发言:“我们一直非常忙碌。两年前 GPT-3 在同类技术中处于领先位置,但现在我们已经实现了将相关成本降低近 1000 倍。”并难言骄傲地表示,他无法找到其他任何技术在短短两年内实现了类似规模的成本下降。
视觉微调:视觉 AI 的新前沿
另一项重大公告是 OpenAI 最新大型语言模型 GPT-4o 引入了视觉微调功能。开发者不仅可以对文本进行微调,还可以对图像进行微调,这或将可能会改变自动驾驶汽车、医学成像和视觉搜索功能等领域。
自引入文本微调功能以来,已有数十万开发者利用纯文本数据集来优化模型以提高特定任务的性能。但在很多情况下,仅凭文本微调并不能满足所有需求。通过视觉微调,开发者可以通过简单地上传至少 100 张图像来优化 GPT-4o 模型,以提升其在视觉任务中的表现,特别是在处理大量的文本和图像数据时。
据 OpenAI 称,东南亚领先的食品配送和拼车公司 Grab 已经利用这项技术来改进其地图服务。仅使用 100 个示例,Grab 就将车道计数准确率提高了 20%,限速标志定位准确率提高了 13%。
视觉微调 GPT-4o 模型成功标记的限速标志示例,图片来源:OpenAI
Automat 公司使用视觉微调训练 GPT-4o 识别屏幕上的 UI 元素,基于屏幕截图数据集,从而提高其自动化工具的成功率。通过这种方式,Automat 的机器人代理的成功率从原来的 16.60% 提升到 61.67%。
桌面机器人通过使用网站截图的视觉微调成功识别UI元素中心,来源:OpenAI
视觉微调现实世界的应用程序展示了视觉微调的可能性,可以使用小批量的视觉训练数据显著增强各行各业的 AI 服务。
视觉微调功能现已对所有付费用户开放,支持最新的 GPT-4o 模型。开发人员可以利用这些功能来扩展现有的图像微调训练数据集。此外,OpenAI 提供了每天 100 万个免费训练令牌,直至 2024 年 10 月 31 日。之后微调训练和推理的费用将进行调整。
实时 API:弥合对话式 AI 之间的差距
实时 API 目前处于公开测试阶段。它能让开发人员能够创建低延迟、多模式体验,尤其是在语音转语音应用程序中。这意味着开发人员可以开始将 ChatGPT 的语音控件添加到应用程序中。
为了说明该 API 的潜力,OpenAI 演示了 Wanderlust 的更新版本,Wanderlust 是去年会议上展示的一款旅行计划应用程序。
借助实时 API,用户可以直接与应用对话,以自然对话的方式规划行程。该系统甚至允许在说话过程中打断,模仿人类对话。
Healthify是一款营养和健身指导应用程序,它使用实时API 实现与AI的自然对话。图片来源:OpenAI
虽然旅行计划只是一个例子,但实时 API 为各个行业的语音应用程序开辟了广泛的可能性。从客户服务到教育和辅助功能工具,开发人员现在拥有强大的新资源来创造更直观、响应更迅速的人工智能驱动体验。
哥德门特解释:“每当我们设计产品时,我们基本上都会同时考虑初创公司和企业。因此在 alpha 阶段,我们有许多企业使用 API,以及新产品的新模型。”
实时 API 本质上简化了构建语音助手和其他对话式 AI 工具的过程,无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。
早期采用者如营养和健身指导应用程序 Healthify 和语言学习平台 Speak 已经将实时 API 集成到他们的产品中。API 在医疗保健到教育等领域创造更自然、更具吸引力的用户体验的潜力。
实时 API 的定价结构虽并不便宜(每分钟音频输入 0.06 美元、每分钟音频输出 0.24 美元),但对于希望创建基于语音的应用程序的开发人员来说,仍代表者一个重要的价值主张。
模型蒸馏:迈向更易于访问的 AI
这也许最具变革性的公告是引入了模型蒸馏。
它集成的工作流程能让开发人员使用 o1-preview 和 GPT-4o 等高级模型的输出来提高 GPT-4o mini 等更高效模型的性能。小公司也能使用先进模型类似的功能,又不用担心承担不起计算成本。
微调演示,来源:OpenAI
模型蒸馏解决了 AI 行业长期存在的尖端、资源密集型系统与更易于访问但功能较弱的系统之间的差距。
假设一家小型医疗技术初创公司正在为农村诊所开发一款人工智能诊断工具,团队使用模型蒸馏可训练一个小模型,它能在标准笔记本电脑或平板电脑上运行,也能捕捉大型模型的大部分诊断能力。
这能将复杂的人工智能能力带入资源受限的环境,从而改善医疗服务不足地区的医疗保健结果。
从这次更新不难看出,OpenAI 在战略上的重要转折——更加注重于生态系统的开发而非单纯追求引人注目的产品发布,虽然策略对公众的吸引力可能不如产品发布那样直接。
与 2023 年充满激情、推出了 GPT 商店和自定义 GPT 工具的开发者日相比,今年的活动显得低调许多。AI 领域的快速变化,以及竞争对手的显著进步和对训练数据可用性的日益关注,促使 OpenAI 更加专注于完善现有工具和增强开发者能力,以应对这些变化。
通过提高模型的效率和降低成本,OpenAI 希望维持其在激烈竞争中的优势,并解决资源密集和环境影响的问题。OpenAI 的成功将在很大程度上依赖于其能否有效培育一个充满活力的开发者生态系统。
参考资料:
《Introducing the Realtime API》,OpenAI
《Introducing vision to the fine-tuning API》,OpenAI
《Prompt Caching in the API》,OpenAI
《Model Distillation in the API》OpenAI
《OpenAI’s DevDay 2024: 4 major updates that will make AI more accessible and affordable》,VentureBeat
《OpenAI’s DevDay brings Realtime API and other treats for AI app developers》,TechCrunch
(封面图来源:OpenAI)
扫码关注公众号
获取更多技术资讯