扣子模型广场,把模型打分权交给开发者

HelloKitty 2024-06-14 16:15

扫一扫 在手机阅读、分享本文

1405

本文由 数智前线 撰写/授权提供,转载请注明原出处。

文章来源于:数智前线

作者:徐鑫、赵艳秋

大模型不缺热点,价格、参数、工具链、长文本、多模态,竞争激烈,热闹非凡。

AI 应用开发者们却犯难了。底层模型快速升级变化,怎么更好地追踪各家模型的能力?不同模型在场景里的能力差异点到底在哪?要做一个应用,如何更快选出适合的模型?

这一真实痛点下,近日,在字节旗下 AI 应用开发平台扣子联合 Intel 推出的 AI 工坊( Coze AI Factory )活动中,扣子重磅上线了“扣子模型广场”。广大开发者可以低门槛、广泛参与模型能力评测,为应用开发提供指引。

在模型广场里,用户可以向两个基于不同底座模型搭建的 Bot 发出请求,Bot 会匿名返回不同的结果。根据结果,用户能比较不同模型在特定场景里的表现并打分。“产品好不好用,用户会用脚投票”,扣子的模型广场,用轻松对决方式,让开发者们给大模型的场景能力投票,极大程度降低了评测模型能力的难度。

选对底层模型能力,关乎 AI 应用效果,模型广场的出现也有利于 AI 应用获得更好的用户口碑。

扣子正持续从产品和功能上发力,降低 AI 应用开发门槛,加速 AI 应用生态繁盛。

好不好用,谁说了算

去年,一个 AI 开发者对我们讲述了用大模型开发 AI 应用时的纠结,“有时候你根本不知道是模型的问题,还是场景的问题,还是你自己的问题,还是三者都有问题”。

这看起来像是个段子,但其实反应出了当下开发者群体在用大模型技术时的典型心态——到底大模型能不能用在某个具体场景里,基于这个场景里的模型选得对不对,要做的工程化工作到底做没有做好。

经过一年多探索,大家对大语言模型能做哪些事情基本上有了共识和定论,场景和模型匹配环节却变成了更大的卡点。

市场在快速变化,厂商们不断推新,比如挂载知识库等能力,提供更大的文本窗口等。细分领域里的 AI 应用开发者,到底该怎么从这么多家模型里,选出合适的模型,开发自己的应用呢?

最近,扣子针对这个痛点,推出了一个很轻松好玩的功能“模型广场”,可以一键来 PK 各家大模型在不同场景的能力。有三种方式来评估大模型在特定应用场景和规则里的性能—— Bot 对战、随机 Bot 对战和纯模型对战。

Bot 对战模式下,扣子目前提供了多种场景里的不同 Bot,用户可以选择任一场景里的 Bot 去看两个匿名的大模型的表现。

1.png

如果你很明确对“信息分析与处理”场景里,不同大模型的能力差异感兴趣,可以选这个分类下的“LYi 论文助手”Bot 来测试。

界面内会出现两个基于不同的大模型底座搭建的 Bot,模型 A 和模型 B。同样的指令发出之后,它们会给出不同的回复。

2.png

全部回复完成后,页面上会跳出一个打分栏,用户需要对两个匿名大模型的场景能力作出评分。

3.png

基于回复的内容,我发现模型 A 在对相关参考文献的信息提取及结构化呈现上能力更强。将整个任务从背景、研究内容、意义、研究结果和参考文献做了更完整的呈现,更符合现实生活里论文阅读和信息提炼场景里的需求。而模型 B 严格基于问题的要求“背景和意义”这两个需求出发,把所有的研究内容都放到了意义部分呈现。虽然达到了预期目标,但是从结构化能力角度,A 的回答更为丰富。

我给这次 PK 打分“A 表现更好”之后,系统揭开了两个模型的神秘面纱。

4.png

扣子在产品界面设计中非常注意用户参与,分享按钮的存在可以直接把整个过程完整截图。如果你感兴趣我的评测打分过程,可以横屏看这个长图里两个模型的表现。

5.png

如果你没有明确的测评方向,随机 Bot 对战模式下,系统会自动给你分配一个 Bot 来评测两个匿名大模型的性能。之后的体验过程与前面的指定 Bot 对战完全一样。

6.png

还有一种对战模式,纯模型对战,它不会选定任何 Bot,直接给模型提要求即可。我以刚刚过去的全国高考“甲卷”的作文要求为例,让两个大模型展开了对决。

从结果看,两个匿名大模型基于不同的侧重点给出了回复。模型 A 更强调表达时的自然感,它的文风与我提出的请求风格保持一致。模型 B 更强调内容表达的结构性,它分层表达,更为严谨。

这个测试里能看出来两个模型偏重的方向并不一样。所以如果开发者想做一个跟人对话互动类的应用,可能模型 A 更合适,而如果想做信息提炼类应用,模型B则更符合要求。我给这次对决的结果打分为“两个都不错”。

28.png

三种模式,两个模型对决,扣子的产品界面和设计细节充满了趣味性,看得出来,它希望大家都能很轻松地去参与这种评测。

接入主流模型,满足全场景

目前扣子的模型广场里,可以选择对战的 Bot,覆盖了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作和角色扮演等多个场景。

7.png

这其实也是目前大模型能力比较擅长的场景和领域。做了这么多细分,实际上也是从开发者视角出发。因为到真正应用层,每个开发者一定是瞄准特定的场景去做尝试。

市场上之前也有不少评测指标和榜单,就是想给用模型的开发者们提供一些指引。但这些评测多数都是裸模型评测居多,从应用开发角度,光靠裸模型可能不够。

每一个应用开发者都有面向的细分场景,所需要的可能也不是一个大模型的全部能力,而是要充分用好它在某一个场景内的潜能。所以扣子分场景对决,是真正从应用落地出发的尝试。

这些动向和安排下,扣子的思路一目了然。

一方面,用实际的使用效果,来直观呈现不同的场景里大模型到底好不好用。是骡子是马,拿出来遛遛,用体验和效果说话。评测过程里两个模型是匿名的,到打分之后你才能看到好评的模型是哪家的,能极大保证评测的公正性。

目前,扣子已经接入了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan 等国内主流大语言模型。更多主流大语言模型的接入,意味着更多人来评测和反馈,解决了开发者们的选择困难症。

有人说,人工智能之所以像人工智障,还是因为模型能力不行。如果开发者们都能基于自己的场景,选择场景内能力更强的模型,应用的效果就会更好。从这个角度看,扣子做的事也是在帮助整个行业扫平AI应用落地的障碍。

遇事不决,用用 Bot

除了最新上线的模型广场,扣子还有其他的功能和产品,让更多人更低门槛、更便捷地体验 AI。

扣子也上线了 Bot(机器人)商店,类似苹果的 AppStore,每个 Bot 就是一个个小应用。

8.png

扣子用户在上面搭建了五花八门的 Bot,有高考志愿咨询,有剧本杀、动漫、小红书文案,还有哄女友神器......看起来,爱读书的人可真不少,扣子上不少读书的小助手,像“认真看一百本书”、“假装看过一万本书”,用户都很多。

商店中的 Bot 还在不断上新。这个月高考刚刚结束,各种有关志愿咨询的 Bot 很受欢迎。

像高考专业指南 Bot,通过 10 道选择题,分析用户的性格特点和对未来生活的愿望,然后给出参考的报考专业方向。从右侧的介绍可以看到,它基于豆包 Function call 模型,开发者做了私有工作流。

我试着做了下选择题,它为我推荐了计算机、历史和管理学专业,还贴心给出了毕业后这三个专业的起始平均薪资,分别是 8000、5000 和 6000 元。

9.png

如果你说这类应用,之前的一些小程序也能实现,那就再看看这个高考志愿填报咨询师,问了一句,“河北考生,高考总分 460,选课组合是物理、历史和政治,想报考芯片专业”,它提供出一些参考的学校。

10.png

除了高考的 Bot,还有很多非常有趣的 Bot。比如这个橘猫漫画家,可以一句话生成一组橘猫漫画,而这些可爱的猫咪太治愈了,之前的小程序很难给人们这样的体验。我发给它“一只橘猫失恋了”,它创作了一组四张画来安慰我。

11.png

如何一句话做一个 Bot

我们不仅可以在 Bot 商店使用各种有趣的 Bot,也可以创建自己的 Bot,而且门槛很低,只要一句话。扣子就像是一个实验工坊,怪不得一些小学生也能从零起步,并且制作复杂的 Bot。

对了,现在扣子和 Intel 联合推出了 AI 工坊( Coze AI Factory ),这是一个主题 Bot 征集活动,欢迎你也来尝试下呀。

我们尝试创建了一个 Bot,叫图说故事。点击“创建 Bot”,只要起名字、写下一句功能介绍就好了。

12.png

因为这个 Bot 的功能是图说故事,我准备选择一些插件,来提升 Bot 的技能。扣子上有插件商店,简单说它是一种辅助程序,能帮助主程序实现一些需要增加的特定功能。插件商店里提供了大量插件,看名字和一句话的功能介绍,就能选择,通过拖拽方式添加,普通人很容易上手。

13.png

我选择了通义万相文生图和 ByteArtist 的文生图插件,来分别试试效果。

14.png

现在,我对 Bot 说“画一只胖猫,夏天在院子里的大树下,给小朋友讲传说故事”。我看到 Bot 开始运行了,调用了通义万相。

15.png

它在几秒内生成了这张图。

16.png

就这么简单,图说故事 Bot 就做好了。

工作流,串联万物

生成一张图还不过瘾,我准备制作一个绘本。这需要在 Bot 再加一步,选择插入一个绘本制作的工作流。扣子上也提供了工作流商店。

17.png

这次我通过搜索,在我的图说故事 Bot 上,插入了绘本制作的工作流。

18.png

现在,我把一个猫和老鼠的故事交给 Bot,但它回复我抱歉,无法制作绘本!我再次尝试,在故事前面加入工作流功能介绍中的“分镜制作”四个字,它终于运行起来了,调用了绘本制作工作流,生成了一个 9 张图的绘本。

19.png

有了自己创建的 Bot,哄娃变得不再令人头疼。你还可以让小朋友一起参与,用 Bot 制作歌曲、制作故事。如果说之前的小朋友是互联网原住民,那么现在的小朋友,或许将是大模型和 Bot 的原住民。

最近,大家发现,Bot 上又出现了“添加图像流”的功能。顾名思义,图像流是处理图像的工作流。同样是通过拖拽方式添加,很容易上手,这是用 AI 技术,来降低我们处理图像的门槛。

20.png

夏天到了,我想给自己搭配下穿搭。我选择了“换衣”这个图像流,添加在我新创建的一个“Pattaya”小助手的 Bot 里。再从图库中找来一张图片,发给小助手,标注“生成穿搭图”。

可以看到,它开始调用换衣的图片流。

几秒钟后,它给出了两张穿搭图片,可以点击查看,穿搭很清爽。

22.png

你还可以用图片流实现智能换脸、换背景、扩图、抠图、多图融合等等。有趣的是,我创建的 Bot,也可以选择一键发布到各个社交平台、通讯软件或部署到网站等其他渠道。

我在想,如果将来要做一个卖衣服的电商网站,将会变得非常简单,可以用扣子创建一个个 Bot,创作文案、生成模特海报,还可以让用户来一键换衣看效果,当然也可以用 Bot 实现财务处理、进销存、物流的自动编排。

未来我们的生活和工作,可以被一个个 Bot 串联、并联起来了。

知识库让 Bot 更个性化

除了这些尝试,我最近还有一个诉求,我和同事们在日常工作中积累了大量的专业文档。上周,我同事还在为我们小组分散在四处的文档发愁。怎么建设一个属于我们的知识库,方便大家检索查询?

我们发现,在 Bot 上,有新增知识库功能,也是通过拖拽方式,把各种形式的知识储存,最多可以上传 300 个文档。我准备上传一个很硬核的文件——华擎主板 570。在上传前,我先问了 Bot 一个问题,让它介绍下这个主板。可以看出,它给出的答案是比较笼统的。

24.png

然后,我创建了 Pattaya 的知识库,上传了华擎主板 570 的专业文档。再一次问同样的问题,这次,它回复的很具体,还给出了文档中的相关页面。

25.png

这个尝试之后,我和同事们计划梳理几个个性化知识库,有案例库、大模型知识库等,方便我们小组内的检索和复用。而我的一个朋友,准备把他这两年观鸟的图片,也做成一个知识库。

扣子上还提供更多的工具。比如,为了让 Bot 与用户沟通时有更好的记忆能力,扣子支持将重要内容存储为关键变量、数据库。为了有更好的交互体验,扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等,还支持卡片格式输出。

开发者间的交流也非常活跃。除了 Bot 商店、插件商店和工作流商店的展示外,每个 Bot 右侧都有社区入口,大家可以交流。

26.png

也有不少开发者建立群组交流,做直播交流。有的直播,开发者在一起讨论起来,常常几个小时。

一位开发者说,扣子让他真正接触到了大模型。以前,他四处寻找,有些需要付费都不一定能用上。现在,扣子提供了各种模型和工具,就像一个 AI 的实验室或者 AI 工坊,让大模型变得触手可及,帮助他开启了未来之旅。对我们普通用户而言,又何尝不是呢!

27.png

微信图片_20240222160346.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章