11项指标击败GPT-4o!360攒局让16家大模型联手作战,组成最强“六边形战士”

HelloKitty 2024-08-05 17:05

扫一扫 在手机阅读、分享本文

897

本文由 量子位 撰写/授权提供,转载请注明原出处。

本文来源:量子位(QbitAI)

作者:克蕾西

终于,国产大模型能在综合能力上也能与 GPT-4o 一决雌雄了。

在 12 项指标的测试中,这个模型有11项都超过了 GPT-4o,综合能力则高出了 10 个百分点。

而且在诗词赏析等中文特色领域优势更加明显,“最难中文 Benchmark”弱智吧也有重大突破。

1.png

不过,这并不是一家大模型厂商单打独斗的结果,而是由 16 家厂商组成的“联合战队”。

战队的发起者是 360,除了自己参与外,包括 BAT 在内的大厂有百度、字节跳动、腾讯、阿里巴巴、华为,国产大模型“五小虎”, 智谱 AI、月之暗面、MiniMax、百川智能、零一万物,还有五家头部垂类厂商,商汤科技、科大讯飞、好未来、幻方量化、面壁智能,总计16家厂商都已悉数到齐。(注:以上排名不分先后)

现在,这个“联合战队”已经被请进了产品——在 AI 助手当中,所有用户都能免费使用。

2.png

十多个大模型给你打工

在 AI 助手当中,16 家厂商的大模型已齐聚一堂,可以在同一平台直接对话,想选哪个就选哪个。

而且中途还可以随时切换模型,系统会记住前面的上下文,让后面的模型继续完成对话。

比如在下面这个对话窗口中,我们问了智谱 9.11 和 9.8 哪个大,然后就把模型切换成了星火,直接问是怎么比的。

3.png

从对话中可以看出,后面换上来的星火准确地得知了“怎么比的”这四个字问的是小数大小的比较。

4.png

当然,针对同一问题,也可以直接召唤出另一家的模型现场 PK。

在模型 PK 的同时,我们也能看到更多的信息或答案,不仅可以让答案更详尽,还能交叉验证。

4.png

举个例子,我们提出了关于电视剧《雍正王朝》中两个角色关系的问题,问题首先提给了智谱。

接着我们又让文心一言也来回答一下,看看能不能获取到更多的信息,结果智谱的回答没有错,文心一言则给出了更为详细的补充。

5.png

更关键的是 360 AI 助手针对选择困难症患者,或者不清楚哪个模型更合适的用户也极为友好。

只要选择“AI 助手”本体作为对话模型,系统就会根据对话内容判断你的意图,然后根据任务类型自动匹配最合适的模型。

6.png

比如在完成写作类任务的时候,AI 助手就会给我们分配擅长文案的豆包。

7.png

遇到编程问题,就会召唤代码能力较强的 DeepSeek。

8.png

以逻辑推理为主的问题,可能会让智谱来应对。

9.png

当然界面中所展示的任务分类比较具有概括性,实际运行过程中 AI 助手还对任务进行了更细粒度的划分。

另外,在选择模型的同时,AI 助手还会先进行联网搜索。

所以,使用 AI 助手的另一个好处就是可以获得最新的信息,而不必担心模型的知识库更新时间。

10.png

针对一些常见任务,AI 助手平台还准备了专用的助手,能够更好地实现这些功能。

11.png

除了在网页中使用,AI 助手还有另外两大入口——桌面和 360 安全浏览器。

12.png

比如在 360 安全浏览器中,安装好 AI 助手插件,在浏览网页时就会在右下角看到一个悬浮球。

点击一下就可以在右侧边栏中召唤出 AI 助手,写作时也可以在同一个窗口中快速和 AI 对话了。

另外在鼠标划过悬浮球时,上方还会出现一个新的按钮,点击之后就可以对当前浏览的页面进行一键总结。

13.png

页面里的细节内容,也可以向 AI 助手提问。

14.png

而且还支持总结英文内容。

15.png

另外就是针对页面中的个别词句,选中后会出现AI助手的工具条,可以对选中部分进行翻译、解释,或联网检索更多相关信息。

16.png

桌面端则依托 360 安全卫士实现,功能与浏览器相似,但把划词召唤的范围从网页扩展到了整个系统。

那么在 AI 助手的背后,又运用了什么样的技术呢?

独创“专家协同”架构

实际上,这种根据需求调度大模型的用法,也刚好是 360 推出的一项新技术——CoE(Collaboration-of-Experts),即专家协同架构。

我们知道,很多国产模型在单项指标上都打平甚至超越了 OpenAI,但论综合实力,差距就显现出来了。

而 360 的思路,是改变这种“单打独斗”的模式,构建大模型“专家集群”,组成混合大模型,从而各取所长,以“联合战队”的方式迎战 GPT-4o。

结果,基于 360 CoE 架构的、由 16 家国产大模型组成的混合大模型在 12 项指标的测试中取得了 80.49 分的综合成绩,超越了 GPT-4o 的 69.22 分。

而且除了代码以外,其余 11 项指标均优于 GPT-4o。

特别是在“弱智吧”和诗词赏析这类比较具有中文特色的问题上,CoE 的领先优势更加明显。

17.png

相比于 MoE(Mixture-of-Experts,混合专家)架构,360 的 CoE 模型在速度、智能和成本三个层次上都拥有显著的优势。

CoE 通过意图识别和任务调度,最优化推理资源分配,提升效率,降低成本,推理成本下降 90%。

为了能够以最高效的方式对 CoE 架构中的模型进行调度,至少有两方面的工作不可或缺。

一是对这些模型能力的全面评估,只有这样,才能了解每个模型所擅长的领域,知道应该给模型分配什么样的任务。

为此,360 对专家库中的模型在 12 个领域的表现进行了全方位测试,摸清了模型的特色能力。

18.png

△除GPT-4o外,其余模型名称已隐去

另一个方面,就是用户意图的解读了——对任务需求的理解,显然是分配模型不可或缺的基础。

基于过去 10 年在做搜索引擎时积累的技术和数据,360 训练出了能识别超过 1 亿种意图分类的专用模型。

19.png

让 AI 更加普惠

除了技术功底,我们不仅还想问,360 是如何组局,让 15 家大模型厂商“尽入毂中”的呢?

360 公司创始人兼董事长周鸿祎介绍,众厂商愿意合作的出发点在于大模型投资巨大,只有有人用才有可能覆盖成本,才能不断改进产品。

而 360 拥有大量用户,可以开放桌面和浏览器两大明星场景,可以给这些模型带来庞大的用户群体。

相比于插件,这两个入口让用户离大模型的能力非常近,而大模型今天最大的需求恰恰就是接近场景和用户,用户才能使用。

另外,集成式的 AI 助手规避了单个大模型的能力短板,各取所长能够超过 GPT-4o,这就给了厂商一个让用户接触使用的机会,未来还好释放出更多的场景。

可以说,360 AI 助手的这种模式,是 AGI 到来前一种很好的提升模型水平的方案,对提高 AI 渗透率也有所裨益。

20.png

最近,国内的大模型厂商开始形成共识,变得更加开放,纷纷提供的更便宜的 Token API。

所以,360 对这桌面和浏览器两个入口的开放,不仅是为了“聚天下英才”,也是在顺应这种走向开放的大趋势。

站在更高的层次上,360 还希望实现 AI 向着更多人的普惠。

周鸿祎认为,AI 并不是会不淘汰人,而是会淘汰不懂得用 AI 的人;而对于会用的人来说,AI 将是强有力的工具。

但同时,AI 本身也不应该居高临下,而是应该让愿意学习它的人都有机会掌握。

这就是 360 所讲的 AI 普惠——让所有人能够享受 AI 带来的能力,避免落后于 AI 时代。

微信图片_20240802161354.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章