你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

文心大模型3.5勇夺三个冠军领跑，中文完爆GPT-4！国际权威报告7项满分「全班第一」

HelloKitty • 2023-07-20 17:00

扫一扫在手机阅读、分享本文

4213

本文由新智元撰写/授权提供，转载请注明原出处。

文章来源于：新智元

作者：新智元编辑部

一觉醒来，好不热闹，Meta 深夜投出重磅炸弹，Llama 2 既开源还能商用，简直让大模型领域变了天了。

在 Azure 上可部署，在 Huggingface 上可下载，Meta 再次回到 AI 主战场，牛到不可思议。

短短一周内，硅谷是真卷起来了。Bing 推出 Bing Chat 企业版，Anthropic 发布 GPT-4 最强竞品 Claude 2，谷歌 Bard 也发布大量更新……

就在刚刚，小编也体验到了百度文心一言最新的文生视频、ChatFile 插件等新功能。

现在，文案、视频，全都能交给它来解决——

根据自己生成的内容，文心一言可以分分钟输出一个视频，连视频配文都帮你贴心地写好。UP 主们简直要笑疯！

据介绍，文字转视频的能力、直接生成视频的能力，目前是在百度内部测试。

IDC「AI 大模型评估报告」，文心大模型全班第一

与此同时，国际权威 IDC 发布了业内首个大模型评估报告——《AI 大模型技术能力评估报告，2023》。

报告中，IDC 从多维度测评大模型的能力，将大模型分为三大层服务生态、产品技术以及行业应用。

每个指标有 1 分-5 分五个层级，得分越高代表厂商大模型技术能力越强。

值得一提的是，百度文心大模型 3.5 拿下 12 项指标的 7 个满分，综合评分第一，算法模型第一，行业覆盖第一。

这三个绝对第一，体现了百度文心大模型的基础技术深度和产业应用覆盖广度。

根据 IDC 的报告，百度 AI 大模型整体竞争力位于领先水平，在模型能力、工具平台、生态布局以及行业覆盖上优势明显，并已提前进入商业化落地探索阶段。

从 3 月 16 日文心一言发布到 5 月，文心一言的「内核」文心大模型就升级到了 3.5 版本。

它实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强，插件机制等，模型效果提升了 50%，训练速度提升了 2 倍，推理速度提升了 30 倍。

既然文心大模型 3.5 是文心一言的内核，那就让我们看看 23 年 6 月 30 日上线的 V2.2.0 版文心一言，究竟强在了哪？

文心大模型 3.5，功能全面升级

这次，文心一言升级后最大的变化，就是全新的「插件」功能了。

可以说，插件就像给大模型们上了一层 buff，被禁锢的能力，瞬间就被释放出来。

比如 GPT-4 搭载的 Code Interpreter 就强到令人发指，甚至很多人说应该叫它 GPT-4.5 才对。

文心一言，当然也少不了强大插件的加持。

检索（热点实时追踪）

在搜索技术上，百度积累了大量优势。

「百度搜索」插件背后，是更强的搜索技术和更强的搜索底层架构。

而集成插件之后的文心大模型 3.5，现在可以对互联网各个角落的信息了如指掌。

比如今天的爆炸性新闻，Meta 发布了开源且免费商用的 Llama2，还和微软云服务 Azure、高通芯片都展开了合作。所以这对全世界大模型的格局会带来哪些改变？

文心一言指出，Meta 在 AI 领域重新拿回了影响力，大模型的商业模式也被彻底改变。

Meta 此举对于 OpenAI 和谷歌的商业版图，会有何影响呢？

文心一言总结得全面又透彻——增加竞争压力、激发创新活力、扩大市场份额、加速行业变革。

搜索和大模型的能力一结合，开了挂的文心一言，简直分分钟化身商业分析师。

文档（PDF/Word 都可以）

除了联网，百度这次还给文心一言新加入了一款 ChatFile 插件。

在上传文档之后，用户只要用自然语言，就能对其中的内容进行问答检索和总结摘要。

而且，通过这种超长文档的回答，ChatFile 可以大幅拓展模型处理文字的长度了。

在使用过程中，ChatFile 会对文档的每一个段落都进行语义索引和向量化建库。

最近，猎聘大数据研究院重磅发布了一份《AIGC 就业趋势大数据报告 2023》，都有哪些核心内容？上传文档，文心一言几秒就能帮你做出又快又好的总结。

你还可以就文档细节，让它给你做个归纳总结。

或者让文心一言帮你总结一篇 arXiv 论文。

有了文心一言的 ChatFile 插件，以后看论文，是省时又省力了。

更懂中国人的大模型

文心一言，显然是更适合中国宝宝体质的大模型。

无论是文言文，还是知乎、小红书这类社交媒体文案的创作，当然还是我们自己的中文大模型最擅长。

进化后的文心大模型 3.5，直逼 GPT-4

正在热映的「长安三万里」，为我们重现了一把大唐的极致浪漫。

年少意气风发的李白，命运几番浮沉。

他曾写下的「轻舟已过万重山」，也再次成为大家关注的焦点。

谪仙人李白写下这句诗时，究竟是怎样的心境？

在诗词歌赋这类中国传统文化方面的表现，文心一言可谓是相当出色。

不仅对答如流，而且还能分析出诗句的含义和妙处。

甚至，还给难(kao)读(dian)的词语，标上了拼音。

而 GPT-4 这边，堪称一个「缝合怪」。

一方面，通篇都没有原作曹操什么事，还把李白写的《赠汪伦》安在了陆游身上。

另一方面，诗句的补全更是离奇。前四句还好好的，然而从第五句往后，GPT-4 就开始放飞自我了……

再比如，北宋文学家欧阳修的《生查子•元夕》中，「月上柳梢头，人约黄昏后」描写的是哪个传统节日？

文心一言答：元宵节。

GPT-4 不仅误判成了中秋节，而且还替苏轼「写」了一首「临江仙·满江红」……

此外，对于成语的理解，文心一言也相当拿手。

正确与否，我们贴上来自「百度百科」的回答，就一目了然了。

相比之下，GPT-4 再一次陷入到了自己的幻觉当中。

中文创作，全面发展

写起古诗来，文心大模型 3.5 也是完胜 GPT-4。

比如以「思念无期」写一首藏头诗。

文心一言不仅完美藏了头，离别之苦、思君之愁的感觉也一并表达了出来。

GPT-4 写的藏头诗，相比之下可是逊色了不少。

一句话：写诗，还得看咱们自己的大模型！

另外，文心一言不仅是一位「文学大师」，还是一位「文案高手」，可以根据不同平台的风格调性，创作贴合的文案。

用知乎体回答一下：「人生中拿到一副烂牌被自己打好了是种怎样的体验？」

「谢邀」俩字一出，张口就知是老知乎 er了。

最近，「特种兵旅游」、「夕阳红老年团游」都 out 了，现在流行的是 Citywalk。那就请文心一言写一份北京的 citywalk 线路吧。

经常上网冲浪的盆友们，你们是不是经常遇到这种文案，文采飞扬、意境绝佳，但就是不知所云。

有了文心一言，对方来一句，咱们来十句。讲不讲得通另说，要的就是一个气势。

就在刚刚，2023 年的暑期档电影票房已经超过了 90 亿元。

虽然不能亲自到影院，但会上网的文心一言，写起影评来是真不在话下。

有人说，大龄程序员的归宿就是送外卖和开奶茶店。

干到三十多卷不动了，带着 50 万存款回老家开一家奶茶店可行吗？文心一言帮你分析。

玩梗，它是独树一帜

对于那些独属于中文互联网的热梗，文心一言就更加如鱼得水了。

在「百度搜索」插件的加持下，文心一言把最近流行的「白人饭」给解释得明明白白。

面对同样的问题，GPT-4 也必须开启一些「科技与狠活」，才能 get 到。

至于回答的质量，两个大模型可以说是不相上下。

相比之下，无法联网的 GPT-3.5，就一脸懵圈了。

「哈基米」也算是一个洗脑了无数人的 bgm。所以，这究竟是什么梗？

文心一言立马说出了「哈基米」的出处，其实在日语中，原音为はちみ。没想到，被网友用来给猫猫视频配音后，火遍全网。

除了热梗，文心一言还很懂流行的 emoji，比如常见的。

对于很多人都不太懂的「阴阳脸」，文心一言不仅解读 emoji，还给出了场景解释和使用警告。

打工人最爱的效率小助手

邮件、脚本、策划、思想汇报、旅游攻略……文心一言，让你的摸鱼打工生活更轻松！

多么个性化的需求，它都能给出逻辑清晰、内容充实的答案。

制图能力

如今的文心一言，在「绘制表格图示」的能力上，得到了巨大的提升。

之前的 3.0，做出的工作计划表还略显粗糙。

到了 3.5，制表能力显然已经全面升级，内容安排十分合理。

此外，更新到 3.5 版本的文心大模型，还能根据表格内容画出对应的柱状图。

数学代码大提升

在这次升级中，同时增强的，还有数学、推理，以及代码能力。

比如，文心一言曾经一直做不出来的加速度问题，进化后的 3.5 版本就可以轻松搞定。

此前文心一言版本

目前文心一言版本

现在，让它手写一段「统计字符串中出现次数最多的字符及次数」的代码，升级后的文心一言，一次就给出了能用的代码，并且附上了每段的释义。

甚至，还完美解决了出现次数最多的字符不止一个时的情况。

输出结果如下：

一些有趣的应用

除了知识渊博，文心大模型 3.5 还是个有趣的灵魂。

角色扮演

最近，很多网友被确诊为沈眉庄，因为到处都是游客只想窝在家里。还有一些人被确诊为安陵容，因为每天都觉得好累。

而文心一言的角色扮演功能，当然也不容错过。

没事和大模型辩论几句，也算是非常锻炼口才和逻辑能力。

和文心一言你一句，我一句的暗号，家人们谁懂？

43..png

多模态生成

现在，数一数全世界的大模型，有多模态能力的大模型真没有几家。

而作为「全村骄傲」的文心一言，在跨模态内容的生成上，也在稳步提升。

文生图、文生音频、文生视频、图生文字……跨模态内容生成，就是文心一言的「独门秘术」。（部分功能未完全开放体验）

比如，生成一个「赛马娘」风格的二次元女孩。

确实，有那味了。

之前，文心一言画的「林黛玉倒拔垂杨柳」虽然很酷炫，但和「林黛玉」不能说是一模一样，可以说是毫不相干。

而 3.5 画的版本，就很有83版《红楼梦》里那个时代特有的圆润古典美女 feel 了。

画汉服美女，生成的图片也比之前自然了许多。

另外，文生音频也是文心一言的独门秘术。

百度文心凭什么「卷」？

从文心一言的发布到现在，文心大模型实现了从 3.0 到 3.5 的华丽转身。

我们也看到了，文心大模型 3.5 模型的性能已经取得了重大飞跃，在问答、创作、推理等任务上表现出色。

与此同时，IDC 报告中对文心大模型能力评估结果的客观性也得到了印证。而且其算法模型是 9 个评估者中唯一一个取得满分的模型。

文心大模型 3.5 在基础模型训练上，采用了飞桨最先进的自适应混合并行训练技术+混合精度计算策略。

还采用多种策略优化数据源及数据分布，大大加快了模型的迭代速度，显著提升了模型效果和安全性。

此外，百度文心大模型研发团队创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术，使模型效果及场景适配能力进一步显著提升。

那么，为什么文心大模型能够成为国内的领先者？

首先，百度能够成为全球科技大厂中第一个发布类 ChatGPT 大模型公司，是因为在模型研发上有长期的投入和积累。

其实早在 2019 年 3 月，百度就发布了预训练模型文心 1.0（ERNIE 1.0），并且不断迭代到 2.0、3.0、3.5 版本。

而文心是百度自主研发的产业级知识增强大模型，借助海量的知识积淀和丰富的应用场景，让其具备了知识增强、产业级两大特色。

其中包括了 NLP、CV、跨模态等基础模型，对话、跨语言、搜索、信息抽取等任务大模型，生物计算领域大模型，行业大模型，以及支撑大模型应用的工具平台，形成了「基础-任务-行业」三级大模型技术体系。

其次，百度是全球为数不多在 IT 四层架构（芯片层、框架层、模型层、应用层）都有全栈布局的 AI 公司。

百度在这四层，都有全栈自研的技术产品。并且，层层领先，可以实现端到端优化，大幅提升效率。

除了刚刚提到的模型层，百度在芯片层有昆仑芯。目前，已经成功部署几万片，第三代预计 2024 年初就能量产。

在深度学习框架层，百度飞桨是中国首个自研的开源开放的深度学习平台，在中国的市场综合份额排第一。

在应用层，百度全部产品都在进行着 AI 原生的重构。

得益于四层架构端到端的优化，尤其是框架层和模型层的协同优化，才使得文心大模型效果、训练、推理速度飞速提升。

百度文心凭什么「卷」？

文心 1.0 发布后，百度率先推出了行业大模型，构建大模型工具与平台。

文心大模型对外提供一系列大模型开发套件、大模型 API，以及集成文心大模型的飞桨企业版 EasyDL 和 BML 开发平台。

这样能够面向不同开发者，以全面释放大模型使用效能，降低应用门槛。

基于多年来的技术生态，以及四层架构的打下的基础，才让文心大模型能够从众多模型中脱颖而出。

百度创始人、董事长兼 CEO 李彦宏曾表示，所有的应用都将基于大模型来开发，每一个行业都应该有属于自己的大模型。

文心大模型也不例外，目前已经在搜索、信息流、智能音箱等互联网产品实现大规模应用。

IDC 评估结果显示，百度文心大模型在行业覆盖上获得唯一满分成绩，在能源、金融、教育、医疗等领域已经实现广泛业务布局和落地场景探索。

以能源电力为例，百度文心联合国家电网有限公司，面向复杂电网的专业场景，基于文心大模型训练了电力行业大模型。

百度也和深圳燃气联合发布了燃气行业大模型，破解燃气企业运营场景繁杂、安全风险识别困难等难题。

另外，还有面向金融行业、汽车行业、制造行业等领域的大模型。

未来，百度文心大模型将不断利用其算法模型的基础技术优势，帮助各行各业将大模型转化为自身的生产力工具，实现智能化的转型与升级。

确定无疑的是，文心大模型仍将不断迭代，为千行百业赋能，进而改变世界。

最新.jpg

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：AI 助手 30 美元 1 个月，微软的「AI 镰...

下一篇：阿里投资AR，押注罗永浩前搭档

精选活动更多 >

{{ val.activity_name }}

{{ val.province ? (val.province + ' ' + val.city) : val.location }}

热门文章

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

2026-06-12

腾讯高管：今年腾讯大部分代码都由AI生成

腾讯高管：今年腾讯大部分代码都由AI生成

2026-06-08

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

Claude深夜炸场！放出史上最强“危险级”模型Fable 5，价格太逆天

2026-06-10

豆包必须要收费了

豆包必须要收费了

2026-06-08

苹果把Siri交给了Gemini

苹果把Siri交给了Gemini

2026-06-10

vivo、荣耀接连入场，戳破了具身智能的AI叙事

vivo、荣耀接连入场，戳破了具身智能的AI叙事

2026-06-10

视频模型巨大的「隐形成本」，没人告诉你

视频模型巨大的「隐形成本」，没人告诉你

2026-06-08

微信“抢婚”豆包？

微信“抢婚”豆包？

2026-06-11