扣子模型广场，把模型打分权交给开发者

HelloKitty • 2024-06-14 16:15

扫一扫在手机阅读、分享本文

4792

本文由数智前线撰写/授权提供，转载请注明原出处。

文章来源于：数智前线

作者：徐鑫、赵艳秋

大模型不缺热点，价格、参数、工具链、长文本、多模态，竞争激烈，热闹非凡。

AI 应用开发者们却犯难了。底层模型快速升级变化，怎么更好地追踪各家模型的能力？不同模型在场景里的能力差异点到底在哪？要做一个应用，如何更快选出适合的模型？

这一真实痛点下，近日，在字节旗下 AI 应用开发平台扣子联合 Intel 推出的 AI 工坊（ Coze AI Factory ）活动中，扣子重磅上线了“扣子模型广场”。广大开发者可以低门槛、广泛参与模型能力评测，为应用开发提供指引。

在模型广场里，用户可以向两个基于不同底座模型搭建的 Bot 发出请求，Bot 会匿名返回不同的结果。根据结果，用户能比较不同模型在特定场景里的表现并打分。“产品好不好用，用户会用脚投票”，扣子的模型广场，用轻松对决方式，让开发者们给大模型的场景能力投票，极大程度降低了评测模型能力的难度。

选对底层模型能力，关乎 AI 应用效果，模型广场的出现也有利于 AI 应用获得更好的用户口碑。

扣子正持续从产品和功能上发力，降低 AI 应用开发门槛，加速 AI 应用生态繁盛。

好不好用，谁说了算

去年，一个 AI 开发者对我们讲述了用大模型开发 AI 应用时的纠结，“有时候你根本不知道是模型的问题，还是场景的问题，还是你自己的问题，还是三者都有问题”。

这看起来像是个段子，但其实反应出了当下开发者群体在用大模型技术时的典型心态——到底大模型能不能用在某个具体场景里，基于这个场景里的模型选得对不对，要做的工程化工作到底做没有做好。

经过一年多探索，大家对大语言模型能做哪些事情基本上有了共识和定论，场景和模型匹配环节却变成了更大的卡点。

市场在快速变化，厂商们不断推新，比如挂载知识库等能力，提供更大的文本窗口等。细分领域里的 AI 应用开发者，到底该怎么从这么多家模型里，选出合适的模型，开发自己的应用呢？

最近，扣子针对这个痛点，推出了一个很轻松好玩的功能“模型广场”，可以一键来 PK 各家大模型在不同场景的能力。有三种方式来评估大模型在特定应用场景和规则里的性能—— Bot 对战、随机 Bot 对战和纯模型对战。

Bot 对战模式下，扣子目前提供了多种场景里的不同 Bot，用户可以选择任一场景里的 Bot 去看两个匿名的大模型的表现。

如果你很明确对“信息分析与处理”场景里，不同大模型的能力差异感兴趣，可以选这个分类下的“LYi 论文助手”Bot 来测试。

界面内会出现两个基于不同的大模型底座搭建的 Bot，模型 A 和模型 B。同样的指令发出之后，它们会给出不同的回复。

全部回复完成后，页面上会跳出一个打分栏，用户需要对两个匿名大模型的场景能力作出评分。

基于回复的内容，我发现模型 A 在对相关参考文献的信息提取及结构化呈现上能力更强。将整个任务从背景、研究内容、意义、研究结果和参考文献做了更完整的呈现，更符合现实生活里论文阅读和信息提炼场景里的需求。而模型 B 严格基于问题的要求“背景和意义”这两个需求出发，把所有的研究内容都放到了意义部分呈现。虽然达到了预期目标，但是从结构化能力角度，A 的回答更为丰富。

我给这次 PK 打分“A 表现更好”之后，系统揭开了两个模型的神秘面纱。

扣子在产品界面设计中非常注意用户参与，分享按钮的存在可以直接把整个过程完整截图。如果你感兴趣我的评测打分过程，可以横屏看这个长图里两个模型的表现。

如果你没有明确的测评方向，随机 Bot 对战模式下，系统会自动给你分配一个 Bot 来评测两个匿名大模型的性能。之后的体验过程与前面的指定 Bot 对战完全一样。

还有一种对战模式，纯模型对战，它不会选定任何 Bot，直接给模型提要求即可。我以刚刚过去的全国高考“甲卷”的作文要求为例，让两个大模型展开了对决。

从结果看，两个匿名大模型基于不同的侧重点给出了回复。模型 A 更强调表达时的自然感，它的文风与我提出的请求风格保持一致。模型 B 更强调内容表达的结构性，它分层表达，更为严谨。

这个测试里能看出来两个模型偏重的方向并不一样。所以如果开发者想做一个跟人对话互动类的应用，可能模型 A 更合适，而如果想做信息提炼类应用，模型B则更符合要求。我给这次对决的结果打分为“两个都不错”。

三种模式，两个模型对决，扣子的产品界面和设计细节充满了趣味性，看得出来，它希望大家都能很轻松地去参与这种评测。

接入主流模型，满足全场景

目前扣子的模型广场里，可以选择对战的 Bot，覆盖了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作和角色扮演等多个场景。

这其实也是目前大模型能力比较擅长的场景和领域。做了这么多细分，实际上也是从开发者视角出发。因为到真正应用层，每个开发者一定是瞄准特定的场景去做尝试。

市场上之前也有不少评测指标和榜单，就是想给用模型的开发者们提供一些指引。但这些评测多数都是裸模型评测居多，从应用开发角度，光靠裸模型可能不够。

每一个应用开发者都有面向的细分场景，所需要的可能也不是一个大模型的全部能力，而是要充分用好它在某一个场景内的潜能。所以扣子分场景对决，是真正从应用落地出发的尝试。

这些动向和安排下，扣子的思路一目了然。

一方面，用实际的使用效果，来直观呈现不同的场景里大模型到底好不好用。是骡子是马，拿出来遛遛，用体验和效果说话。评测过程里两个模型是匿名的，到打分之后你才能看到好评的模型是哪家的，能极大保证评测的公正性。

目前，扣子已经接入了豆包、通义千问、智谱、MiniMax、Moonshot 、Baichuan 等国内主流大语言模型。更多主流大语言模型的接入，意味着更多人来评测和反馈，解决了开发者们的选择困难症。

有人说，人工智能之所以像人工智障，还是因为模型能力不行。如果开发者们都能基于自己的场景，选择场景内能力更强的模型，应用的效果就会更好。从这个角度看，扣子做的事也是在帮助整个行业扫平AI应用落地的障碍。

遇事不决，用用 Bot

除了最新上线的模型广场，扣子还有其他的功能和产品，让更多人更低门槛、更便捷地体验 AI。

扣子也上线了 Bot（机器人）商店，类似苹果的 AppStore，每个 Bot 就是一个个小应用。

扣子用户在上面搭建了五花八门的 Bot，有高考志愿咨询，有剧本杀、动漫、小红书文案，还有哄女友神器......看起来，爱读书的人可真不少，扣子上不少读书的小助手，像“认真看一百本书”、“假装看过一万本书”，用户都很多。

商店中的 Bot 还在不断上新。这个月高考刚刚结束，各种有关志愿咨询的 Bot 很受欢迎。

像高考专业指南 Bot，通过 10 道选择题，分析用户的性格特点和对未来生活的愿望，然后给出参考的报考专业方向。从右侧的介绍可以看到，它基于豆包 Function call 模型，开发者做了私有工作流。

我试着做了下选择题，它为我推荐了计算机、历史和管理学专业，还贴心给出了毕业后这三个专业的起始平均薪资，分别是 8000、5000 和 6000 元。

如果你说这类应用，之前的一些小程序也能实现，那就再看看这个高考志愿填报咨询师，问了一句，“河北考生，高考总分 460，选课组合是物理、历史和政治，想报考芯片专业”，它提供出一些参考的学校。

除了高考的 Bot，还有很多非常有趣的 Bot。比如这个橘猫漫画家，可以一句话生成一组橘猫漫画，而这些可爱的猫咪太治愈了，之前的小程序很难给人们这样的体验。我发给它“一只橘猫失恋了”，它创作了一组四张画来安慰我。

如何一句话做一个 Bot

我们不仅可以在 Bot 商店使用各种有趣的 Bot，也可以创建自己的 Bot，而且门槛很低，只要一句话。扣子就像是一个实验工坊，怪不得一些小学生也能从零起步，并且制作复杂的 Bot。

对了，现在扣子和 Intel 联合推出了 AI 工坊（ Coze AI Factory ），这是一个主题 Bot 征集活动，欢迎你也来尝试下呀。

我们尝试创建了一个 Bot，叫图说故事。点击“创建 Bot”，只要起名字、写下一句功能介绍就好了。

因为这个 Bot 的功能是图说故事，我准备选择一些插件，来提升 Bot 的技能。扣子上有插件商店，简单说它是一种辅助程序，能帮助主程序实现一些需要增加的特定功能。插件商店里提供了大量插件，看名字和一句话的功能介绍，就能选择，通过拖拽方式添加，普通人很容易上手。

我选择了通义万相文生图和 ByteArtist 的文生图插件，来分别试试效果。

现在，我对 Bot 说“画一只胖猫，夏天在院子里的大树下，给小朋友讲传说故事”。我看到 Bot 开始运行了，调用了通义万相。

它在几秒内生成了这张图。

就这么简单，图说故事 Bot 就做好了。

工作流，串联万物

生成一张图还不过瘾，我准备制作一个绘本。这需要在 Bot 再加一步，选择插入一个绘本制作的工作流。扣子上也提供了工作流商店。

这次我通过搜索，在我的图说故事 Bot 上，插入了绘本制作的工作流。

现在，我把一个猫和老鼠的故事交给 Bot，但它回复我抱歉，无法制作绘本！我再次尝试，在故事前面加入工作流功能介绍中的“分镜制作”四个字，它终于运行起来了，调用了绘本制作工作流，生成了一个 9 张图的绘本。

有了自己创建的 Bot，哄娃变得不再令人头疼。你还可以让小朋友一起参与，用 Bot 制作歌曲、制作故事。如果说之前的小朋友是互联网原住民，那么现在的小朋友，或许将是大模型和 Bot 的原住民。

最近，大家发现，Bot 上又出现了“添加图像流”的功能。顾名思义，图像流是处理图像的工作流。同样是通过拖拽方式添加，很容易上手，这是用 AI 技术，来降低我们处理图像的门槛。

夏天到了，我想给自己搭配下穿搭。我选择了“换衣”这个图像流，添加在我新创建的一个“Pattaya”小助手的 Bot 里。再从图库中找来一张图片，发给小助手，标注“生成穿搭图”。

可以看到，它开始调用换衣的图片流。

几秒钟后，它给出了两张穿搭图片，可以点击查看，穿搭很清爽。

你还可以用图片流实现智能换脸、换背景、扩图、抠图、多图融合等等。有趣的是，我创建的 Bot，也可以选择一键发布到各个社交平台、通讯软件或部署到网站等其他渠道。

我在想，如果将来要做一个卖衣服的电商网站，将会变得非常简单，可以用扣子创建一个个 Bot，创作文案、生成模特海报，还可以让用户来一键换衣看效果，当然也可以用 Bot 实现财务处理、进销存、物流的自动编排。

未来我们的生活和工作，可以被一个个 Bot 串联、并联起来了。

知识库让 Bot 更个性化

除了这些尝试，我最近还有一个诉求，我和同事们在日常工作中积累了大量的专业文档。上周，我同事还在为我们小组分散在四处的文档发愁。怎么建设一个属于我们的知识库，方便大家检索查询？

我们发现，在 Bot 上，有新增知识库功能，也是通过拖拽方式，把各种形式的知识储存，最多可以上传 300 个文档。我准备上传一个很硬核的文件——华擎主板 570。在上传前，我先问了 Bot 一个问题，让它介绍下这个主板。可以看出，它给出的答案是比较笼统的。

然后，我创建了 Pattaya 的知识库，上传了华擎主板 570 的专业文档。再一次问同样的问题，这次，它回复的很具体，还给出了文档中的相关页面。

这个尝试之后，我和同事们计划梳理几个个性化知识库，有案例库、大模型知识库等，方便我们小组内的检索和复用。而我的一个朋友，准备把他这两年观鸟的图片，也做成一个知识库。

扣子上还提供更多的工具。比如，为了让 Bot 与用户沟通时有更好的记忆能力，扣子支持将重要内容存储为关键变量、数据库。为了有更好的交互体验，扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等，还支持卡片格式输出。

开发者间的交流也非常活跃。除了 Bot 商店、插件商店和工作流商店的展示外，每个 Bot 右侧都有社区入口，大家可以交流。

也有不少开发者建立群组交流，做直播交流。有的直播，开发者在一起讨论起来，常常几个小时。

一位开发者说，扣子让他真正接触到了大模型。以前，他四处寻找，有些需要付费都不一定能用上。现在，扣子提供了各种模型和工具，就像一个 AI 的实验室或者 AI 工坊，让大模型变得触手可及，帮助他开启了未来之旅。对我们普通用户而言，又何尝不是呢！

微信图片_20240222160346.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：微软Copilot GPTs下月停服！发布仅3个月...

下一篇：国内外大模型PK填志愿：AI个个强，别被张雪峰坑了...

精选活动更多 >

{{ val.province ? (val.province + ' ' + val.city) : val.location }}

扣子模型广场，把模型打分权交给开发者

{{ val.activity_name }}

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

腾讯高管：今年腾讯大部分代码都由AI生成

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

vivo、荣耀接连入场，戳破了具身智能的AI叙事

苹果把Siri交给了Gemini

豆包必须要收费了

视频模型巨大的「隐形成本」，没人告诉你

微信“抢婚”豆包？

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

腾讯高管：今年腾讯大部分代码都由AI生成

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

vivo、荣耀接连入场，戳破了具身智能的AI叙事

豆包必须要收费了

苹果把Siri交给了Gemini

视频模型巨大的「隐形成本」，没人告诉你

微信“抢婚”豆包？

智谱首破5000亿！六小虎与DeepSeek千亿估值竞赛，谁的拳头最硬？

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！

估值逼近快手，可灵分拆是一步好棋吗？

腾讯音乐，在AI噪音里贩卖真实

即梦和可灵，能不能接住AI短剧风口？

快手拆了可灵，字节拆豆包还会远么

排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

“出走”阿里两个月，林俊旸一出手就是20亿美金