HelloKitty • 2024-12-13 16:23
394
本文由 AI科技评论 撰写/授权提供,转载请注明原出处。
文章来源于:AI科技评论
作者:允毅
编辑:马晓宁
Open AI 连续几天上新,谷歌也不甘示弱。
今天谷歌深夜炸群,重磅发布了杀手锏——Gemini2.0,声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”
其最大的亮点是 Gemini2.0 是第一家实现原生多模态输入输出的模型。
基于强大的新模型,谷歌又推出了三个 AI agent 产品,通用大模型助手 Project Astra、浏览器助手 Project Mariner、编程助手Jules,这一套“组合拳”下来,标志着谷歌 AI 已经初步做到了向“Agent”时代的转变。
谷歌 DeepMind 的 CEO 德米斯·哈萨比斯(Demis Hassabis)对此表示非常满意,因为 Gemini 2.0 实际上达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的情况下,整体性能要整整提升一个档次。
Gemini2.0,
第一个实现原生多模态输入输出的模型
在 Gemini2.0 发布前,谷歌发布的一款名为 Gemini-exp-1206 的模型已经火爆全网。该模型能够处理 200 万个标记(相当于一个多小时的视频),擅长处理大型复杂数据集。因为高超的性能,它在 Livebench 上排名第二,超过了 Claude 3.5 Sonnet,直逼 Open o1-preview。
许多人猜测这可能就是 Gemini2.0。
当 Gemini2.0 的实力真正揭开帷幕,比想象中还令人震撼。首先性能上全面升级。在速度方面,2.0 的速度是 1.5 Pro 的两倍,这一速度提升意味着用户将享受到更高效的处理能力和更快的响应时间。
在性能方面,Gemini2.0 可以支持图片、视频和音频等多模态输入与输出。可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。
基于 Gemini2.0 架构之上,谷歌推出了三个新的 AI 智能体原型:通用大模型助手 Project Astra、浏览器助手 Project Mariner、编程助手 Jules。
谷歌送上 Agent 大礼包
Agent 是指无需人工干预或监督即可自主执行任务的人工智能技术。它们允许用户将任务委托给人工智能,从而大大优化人类的工作流程,组建一支随时待命的助手团队,几乎无需监督。
谷歌在 2024 年的末尾,送上了 Agent 大礼包。
Project Astra:通用大模型助手
Project Astra 是谷歌最初在 5 月的 I/O 大会上首次对外发布的 AI 助手,对标OpenAI 的 GPT-4o,其主要功能包括实时语音和视觉处理,能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。
Astra 产品经理 Bibo Xu 认为 Project Astra 在整合一些当今最强大的信息检索系统。
此次,Project Astra 全面升级了四个性能:更好的对话,能调用新工具,更强的记忆,更低的延迟。
更好的对话: Project Astra 具备多语言对话能力,能够更好理解不同口音和不常见词汇。
调用新工具:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。
更强的记忆:Project Astra 拥有长达 10 分钟的会话记忆,能记住更多用户与其过去的对话,从而提供个性化的服务。
更低的延迟:通过对新的流媒体功能和本机音频理解,Project Astra 可以以与人类正常对话的速度来作出反馈。
Google 和 Alphabet 首席执行官桑达尔·皮查伊(Sundar Pichai)对这一产品尤为自豪,称它为“展示了通用 AI 助手的曙光”。而谷歌方面正打算将这些功能引入 Google 产品,如 Gemini 应用、 AI 助手,眼镜等。
Project Mariner:浏览器助手
Project Mariner 是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息完成任务。
简而言之,就是用AI来帮助人类操作电脑,通过控制用户的 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,Project Mariner 可以登录杂货店网站购物,还可以查找航班和酒店、购买家居用品、查找食谱等。
根据 WebVoyager 基准进行评估,该基准测试代理在端到端真实世界网络任务上的性能,Project Mariner 作为单一代理设置实现了 83.5% 的最佳工作结果。
不过从安全性考虑,这一切都在用户监督允许的范围内,许多敏感操作会要求用户进行最终确认。
某谷歌高管称 Project Mariner 是“全新用户体验范式转变”的一部分。
Jules:编程助手
Jules 简而言之,就是 AI 帮你写代码。它直接集成到 GitHub 工作流程中,查看用户已有的代码,并直接在 GitHub 中进行更改,解决开发者头疼的改 bug 环节,而这一切也都在用户的监督之下,保证安全的同时节省时间,方便用户专注于做自己实际想构建的内容。
Gemini2.0 的全面还包括在游戏、学术研究、机器人领域做的尝试。
谷歌正在与 Supercell 等游戏开发商合作,探索智能体在游戏中的应用。谷歌推出的 AI 游戏助手可以理解游戏规则和进程,能够通过用户游戏屏幕上的动作来给出下一步操作建议。谷歌展示了从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏中,AI 如何通过对话的形式为玩家提供建议。
谷歌推出的 Deep Research,如同学术研究助手,通过高级推理和长上下文能力,可以直接出论文。
谷歌还想将 Gemini 2.0 的空间推理能力应用于机器人身上,帮助机器人更加智能化。
Gemini2.0 在音频和图像生成方面展现了强大实力,系统可以生成和修改图像,处理照片和视频,回答相关问题,用不同口音和语言的声音朗读文本。为了防止滥用,谷歌使用 SynthID 技术对所有生成的音频和图像进行水印标记。谷歌还推出了多模态实时 API,帮助开发者构建具有实时音频和视频流功能的应用程序。这个 API 支持来自摄像头或屏幕的音频和视频输入,能够处理自然对话模式。
Gemini2.0 的强大基于谷歌定制的硬件第六代 TPUTrillium 构建而成。Trillium 与前代产品相比全面升级,如训练性能提高超过 4 倍,推理吞吐量提高3 倍,每个芯片的峰值计算性能提高了 4.7 倍,效提高 67%,每颗芯片峰值计算性能提高 4.7 倍,HBM 容量翻倍,单个 Jupiter 网络有 10 万颗 TPU,高至 2.5 倍的每美元训练性能,1.4 倍的每美元推理性能。
目前人们可以通过 PC 端优先体验 2.0Flash 实验版,而 Gemini2,0 移动版将很快呈现。明年 1 月谷歌会推出 Gemini 2.0 Flash 多模式版本,届时还将推出更多 Gemini 2.0 模型尺寸。
而作为提供给开发者的体验版模型,Gemini 2.0 Flash 现在可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用多模态输入和文本输出。
谷歌开启 Agent 时代
谷歌正在疯狂将 AI 融入它所拥有的所有产品中。
Google 和 Alphabet 首席执行官 桑达·皮采(Sundar Pichai)对这款产品寄予厚望,他说如果 Gemini 1.0 是关于组织和理解信息的,那么 Gemini 2.0 就是为了让信息更加有用。其中重要的区别就是“Agent”,这是人工智能时代下一个大方向。
在桑达尔·皮查伊(Sundar Pichai)描述中,“Agent 可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动”。谷歌这次秀肌肉,完整呈现了系统级 Copilot 和智能体应用,展现了 Agent 可以为人们生活带来的全方位改变。
谷歌表示他们的 AI Overviews 已服务超过 10 亿用户,帮助用户提问全新的问题类型,成为谷歌搜索引擎最受欢迎的功能之一。他们准备把 Gemini 2.0 的先进推理能力引入 AI Overviews,处理更复杂的主题和多步骤问题,包括高级数学公式、多模态查询和编程,探索更多功能引入产品本身。谷歌的愿景是在 2025 年开启真正的“AI 智能体时代”。
据彭博社报道,OpenAI 正准备发布一款能够控制计算机并独立执行任务的自主 AI 代理,代号为“Operator”,计划于 1 月份将其作为研究预览版和开发工具首次亮相。
2025 年是 Agent 时代的真正开始,到时又会有怎样的厮杀呢,我们拭目以待。
扫码关注公众号
获取更多技术资讯