你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

2B小钢炮碾压Mistral-7B，旗舰级端侧模型炸场开年黑马！1080Ti可训，170万tokens成本仅1元

HelloKitty • 2024-02-02 17:53

扫一扫在手机阅读、分享本文

2778

本文由新智元撰写/授权提供，转载请注明原出处。

文章来源于：新智元

作者：新智元编辑部

最强旗舰端侧模型，重磅诞生！

就在刚刚，坐落在「宇宙中心」的面壁智能，重磅发布 2B 旗舰端侧大模型 MiniCPM，并全面开源。

「用最小的规模，做最强的AI」

小参数规模的端侧大模型，如今已经成为微软谷歌 Mistral 等众多 AI 科技公司看好的一大方向，因为大模型时代正大呼 Al Native。

可以说，在大模型时代，能在端侧运行的大模型，是众望所归。

而未来无处不在的智能体（Agent），也需要通过能耗比优异的端侧大模型，才能更好地落地开花。

以小博大，超强端侧大模型诞生

今天发布的 MiniCPM 不仅是端侧模型，更是旗舰模型！

首先就是性能上展现的旗舰——以小博大。

提到以小博大最好的标杆，必然是 2023 年在 AI 开源社区大火、被公认为「开源模型新王者」的 Mistral-7B。

仅用 2B 的规模，以及 1T tokens 的精选数据，MiniCPM 就在多项主流评测榜单上，全面地超越了 Mistral-7B。

跟微软发布的 Phi-2 相比，MiniCPM 在中文能力上具有极大的优势。

甚至，MiniCPM 还可以跟20B、40B、50B 的一些模型「掰手腕」。

在英文榜单的平均分上，它的得分超越了 Llama2-13B、Falcon-40B。

在 HumanEval、MBPP 等代表了代码、逻辑能力的榜单上，MiniCPM 都表现亮眼。

此外，在最接近用户体感的 MT-Bentch 上，MiniCPM 也取得了很好的成绩。

这次，MiniCPM 也是首次把多模态的能力，集成到了端侧模型中，并在手机上付诸实施。

多模态性能同体量下没有对手，所以只能越级 PK。

在多模态基准测试中，2.8B 规模的 MiniCPM-V 展现出了 3 倍于它体量的模型能力。

总之，MiniCPM 是无愧于「性能小钢炮」这个称号！

全能旗舰，能说会看

MiniCPM 模型究竟有多强，还得看看它具体实力如何。

语言能力

它可以把中英语言夹杂的句子，翻译成法语。

它还有丰富的知识库，能够准确答出山东最高山的名字，甚至还知道它和黄山的准确海拔，并计算出差值。

另外，角色扮演也难不倒 MiniCPM。

它凭借一张好嘴，同意模仿《水浒传》中李逵的语气，仅用三句话便能让宋江乖乖掏出 18 万。

当然了，爱的甜言蜜语配上emoji，或者各种配表情的文案，它都能够拿捏。

自己写自己的代码

虽然模型参数不多，但写代码的能力还挺强。

比如，MiniCPM 能够写出一串「复刻」自己要素齐全的代码。

当然了，这距离完整复现 MiniCPM 的代码还很遥远。

人生要有 PlanB：野外生存直接开挂

为什么要把多模态能力集中到端侧上？自然是因为有这个需求。

端侧多模态模型一个很现实的使用场景就是，当手机断网时，它依然能够全天候为人服务。

在野外生存当手机没信号时，MiniCPM 就能成为你的「野外生存锦囊」。

在发布会现场，团队也进行了一波端侧模型的性能演示。

首先把手机调飞行模式，然后向 MiniCPM 求助：野外迷路了怎么办？

当你看到一个奇怪的蘑菇时，便可求助 MiniCPM，它也许就能救你一命。

打开帐篷，突然看到一条蛇怎么办？MiniCPM 告诉你：有毒，走为上计！

如果不小心被咬了，必须尽快就医！

CPU 搞定推理，1080Ti 玩转训练微调

成本，就是大模型的隐形竞争力。

面壁智能在做商业化实践的时候，发现客户都十分关注应用模型的成本。

虽然千亿模型效果很好，但真正大规模去部署时，成本会是一个绕不开的巨大障碍。

而 MiniCPM 很好地解决了这个障碍，让模型的推理成本实现断崖式的下降。

在提供非常强劲的模型的同时，还能支持 CPU 推理，是实打实的「省钱大模型」。

其中，MiniCPM 的 int 4 量化版本，在性能几乎无损的情况下压缩了 75% 的尺寸，大大降低了模型对于内存和闪存的需求。

以搭载骁龙 855 芯片的手机为例，处理 170 万 tokens 的成本仅为 1 块钱，几乎只有在云端运行的 Mistral-Medium 的 1%。

除了端侧推理的成本非常低，MiniCPM 持续改进的成本也控制也异常得好。

一台电脑、一张普通的消费级显卡就能完成 SFT，彻底拯救算力焦虑。

进行 Int4 量化后，MiniCPM 只占 2GB 空间，具备了在端侧手机进行模型部署的条件。

对此，团队在 Android 和 Harmony 系统上使用开源框架 MLC-LLM 进行模型适配，在 iPhone 系统上使用开源框架 LLMFarm 进行模型适配，并分别选取了部分端侧手机设备进行了测试。

从结果来看，MiniCPM 已经跑通了国际主流的手机品牌和终端 CPU 芯片，即使是老手机运行起来也毫无压力。

复刻 Gemini 演示，全程无剪辑

此次，除了 MiniCPM 旗舰模型外，面壁智能还开源了 12B 参数量的多模态大模型 OmniLMM。

就拿 Gemini 发布当时演示「猜丁壳」的案例，OmniLMM 在此的表现毫不逊色。

一只手拍摄视频，一只手做演示，然后用英文问它：我正在玩什么游戏？

它会回答：石头剪子布。它不仅能认出你出的是什么手势，还能告诉你如果要赢应该出什么。

这个过程中，OmniLMM 表现出了多重能力：实时动作识别，理解玩游戏的取胜策略，还可以通过语音识别工具理解用户问题。

就像之前 GPT-4 的演示一样，OmniLMM 能够识别出图片中笑点在哪里。

这只宠物狗的自拍为啥好笑？当然是因为它一幅「人模狗样」。

而 GPT-4V 的解释，似乎有些牵强，讲的是狗的表情很严肃，而人和狗的结合很搞笑，没有强调出狗会自拍这个元素。

这张图片看起来很幽默，因为它显示的是一只狗与人的身体，狗站起来靠在门框上。这是一张经过数字处理或「Photoshop 」的图片，将狗的头部与身穿蓝色T恤和黑色短裤的人的身体结合在一起。

狗与人身体的不协调，再加上狗严肃的面部表情，使这幅图像变得滑稽可笑。它利用了荒诞和出人意料的情境，而这正是幽默的常见来源。

对于视错觉的图片，OmniLMM 也能准确看出其中的真相！

图中有两个人，一个人坐在椅子上，另一个人走在路上。

相比之下，GPT-4V 并没有看出其实图中是两个人，完全败下阵来。

照片中可以看到一个人。这是一个从后面看到的坐在长凳上的男人。他身穿绿色条纹衬衫和深色裤子，旁边长凳的一侧披着一条蓝色毛巾或布。

他还戴着口罩，这表明照片可能是在戴口罩在公共场合很常见的时期拍摄的。照片画面中看不到其他人。

通过图片中的细节，OmniLMM 还能推理出很多真实世界中的信息。

照片拍摄的是中国北京故宫宁静的冬景。故宫是联合国教科文组织世界文化遗产，巍然屹立在背景中，红色的墙壁和屋顶与阴霾的天空形成鲜明对比。地面上覆盖着一层白雪，为画面增添了一丝宁静。

前景中，一群人正走向紫禁城，寒冷的空气中，他们的呼吸清晰可见。其中，有一个人正在用手机捕捉这一刻，或许是为了珍藏记忆，或许是为了与亲朋好友分享。

画面从低角度仰望故宫，突出了故宫的宏伟和历史意义。这一视角还能清晰地看到前景中的人物，使场景更具规模感和纵深感。

图片上有「CCTV 2 」和「CCTV.COM 」的水印，表明很可能是由中国中央电视台拍摄的。水印还表明，该图像可能是新闻报道或纪录片的一部分。

而 GPT-4V 对于中国场景的了解确实还是不如我们国产模型，没有识别出故宫，但是看出了 CCTV-2，整体上两边解释的程度区别不大。

对于没有文字说明的图片，OmniLMM 甚至可以根据服装，亦或者墨镜和导盲杖等小细节精准推断出图片表达的含义，充分展现了其「会看会思考」的综合能力。

画面中，一名女士和她的狗正在穿过城市街道上的人行横道。这名女士身穿条纹衬衫和蓝色牛仔裤，右手拿着一根白色手杖。她的爱犬是一只棕褐色的拉布拉多犬，拴着皮带，戴着黑色安全带。她们都在向画面右侧移动。

她们穿过的人行横道上有白色条纹，位于一栋灰色建筑前。街道两旁绿树成荫，为城市环境增添了一丝自然气息。艳阳高照，投射出温暖的光辉。

画面捕捉了这位女士和她的爱犬在城市中相伴前行的瞬间。女人使用的拐杖表明她可能有视力障碍，而狗的背带表明它受过训练，可以帮助她。他们穿过人行横道的旅程见证了他们的团队合作和共同的纽带。

以小博大，实力在哪？

端侧模型的发展，已经半年多了。去年七月开始，很多厂商都入局了端侧大模型。

面壁智能这一系列在大模型上取得的突破，都来源于他们强大的团队和多年的技术积累。

2021 年，面壁智能就构建了高效的技术优势，集中在 Infra、算法和数据方法论这三个方向中。

算力+算法+数据

可以说，Infra 能力是大模型创业的护城河，因为 Infra 会决定公司的技术上限。

没有好的 Infra，很容易遇到模型调优的天花板。想做更深入的工作时，往往会受到 Infra 的限制。

而面壁智能在 21 年就已经开发出了 BMtrain 分布式训练框架，在 Infra 上有了很长时间的沉淀。

在算法层面，面壁智能积攒了「模型沙盒」技术。

三年实践中总结出的这个模型方法论，让大模型炼丹变成了实验科学。

他们找到了各个尺寸模型训练的超参和训练过程的最优解。

在发布 MiniCPM 之前，研究者做了上千次模型沙盒实验，探索出了一系列业界最优配置。

比如全新提出的 WSD 学习率优化器，可以在任何阶段退火，取得该阶段最优的模型。而之前的 Cosine LRS 方法，却无法实现，因为持续训练的情况下不是最优的。

同时，通过在 MiniCPM 上验证 6 种参数模型，可以预测到参数规模越小，Loss 值便会增大。MiniCPM 的最终 C4 Loss 为 2.41，接近于 9B 的 Chinchilla Optimal 模型。

此外，面壁也积累了大量的高质量数据。

MiniCPM 的训练十分高效，只用了高质量数据集中 1T 的 tokens，当然，都是来自于模型训练方法论指导筛选出来的数据。

1T tokens 超越 Mistral-7B，就是这么来的。

为了促进行业发展，面壁智能开源了两个阶段的数据配方。

1. 稳定训练阶段

在此阶段，使用 1T 的去重后的数据，其中大部分数据从开源数据中收集来，比例如下图。

研究团队使用了模型沙盒实验中探索出的最优配置，WSD LRS，batchsize 为 3.93M，Max Learning Rate 为 0.01。

2. 退火阶段

在此阶段，SFT 数据配比如下：

在 263000 步（约 1T 数据）时，开始进行退火，退火过程也变现出了损失函数急剧下降的现象，同时在各种任务数据、SFT 数据上的 Loss 也有显著下降。

整个训练过程中，C4训练集上Loss

「宇宙中心」大模型+ Agent 早期实践者

在 2023 大模型元年里，五道口大模型 Vally 纷纷汇聚了百川智能、面壁智能、智谱华章等中国主流大模型创业公司，以及智源研究院这样杰出的研究机构。

若说其中，最早开始大模型+ Agent 的研究者，便是面壁智能了。

成立于 2022 年 8 月，这家初创公司的创始团队来自于清华计算机系，这样的强大背景就注定了它将来的不凡。

谁能想到，这家公司才刚满1岁

明星团队，「双 CP」领军组合

据介绍，面壁智能团队有 100+ 人的明星科研团队，而且是 80% 清北含量，平均年龄 28 岁。

其中一位带头人——刘知远是深度学习、BERT、大模型、Agent 四次重要技术方向的推动者，沉淀积累了大量的经验。在四次变革中，他都找对了方向，让面壁智能能始终引领热点。

他曾在 2018 年帮助推动清华 NLP 实验室研究路线转型，并推出了全球首个知识指导的预训练模型 ERNIE。

刘知远与另一位联合创始人李大海、CTO 曾国洋、首席研究员韩旭并称为「双 CP」领军组合。

其中曾国洋还是悟道中文预训练模型团队骨干成员，2020 年 12 月发布全球第一个 20 亿中文开源大模型 CPM。

2022 年 4 月，清华 NLP 实验室联手智源发起开源社区 OpenBMB。

成立 1 年以来，面壁智能连续发布了多款模型，如 CPM-Bee、CPM-Cricket，智能对话助手面壁露卡，以及在 2023 下半年密集发布了 Agent 产品，全都体现了这家公司厚和广的基础积累。

从 Mistral AI 的成功，我们能看到，一家能在 AI 赛道上做出有影响力产品的初创公司，团队一定以科学家为主，研究能力强，且技术栈全面，互补的。

而现在，面壁智能也形成了全面的产品线，包括大模型 C 系、O 系、Mini 系，Agent 宇宙，高效 Infra。

One More Thing

春节假期马上就到了，过年嗑瓜子，不如嗑「CP 神器」——心间。

在这个 App 上，不光有李白杜甫、清华北大的 CP，或许，你还可以找到平行宇宙的 ta。

参考资料：

https://github.com/OpenBMB/MiniCPM

https://github.com/OpenBMB/OmniLMM

微信图片_20231218102300.png

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：AI NPC：实现通用人工智能的必由之路？

下一篇：国产大模型前途何在？科大讯飞引领商业化落地

热门文章

豆包电脑版，原地封神了！

豆包电脑版，原地封神了！

2024-09-26

完整的 671b DeepSeek-R1塞进本地，详尽教程来了！

完整的 671b DeepSeek-R1塞进本地，详尽教程来了！

2025-02-07

DeepSeek上线20天DAU超2000万，超豆包追ChatGPT

DeepSeek上线20天DAU超2000万，超豆包追ChatGPT

2025-02-06

“吉卜力风”免费版来了！豆包这款AI生图神器，不比GPT弱？

“吉卜力风”免费版来了！豆包这款AI生图神器，不比GPT弱？

2025-04-08

Qwen3深夜正式开源，小尺寸也能大力出奇迹

Qwen3深夜正式开源，小尺寸也能大力出奇迹

2025-04-29

访问量破千万！抖音豆包成最大AI黑马

访问量破千万！抖音豆包成最大AI黑马

2024-04-16

剪映新AI体验：图片生成满分，替代Sora为时尚早！

剪映新AI体验：图片生成满分，替代Sora为时尚早！

2024-05-11

DeepSeek-R1大战豆包、Kimi，国产AI大模型第一花落谁家？

DeepSeek-R1大战豆包、Kimi，国产AI大模型第一花落谁家？

2025-02-07

2024年十大划时代科技产品盘点：AI，AI，还是AI！

2024年十大划时代科技产品盘点：AI，AI，还是AI！

2024-12-16

谁将统治AI游戏时代？腾讯、网易、米哈游技术暗战

谁将统治AI游戏时代？腾讯、网易、米哈游技术暗战

2025-08-06