文心大模型3.5勇夺三个冠军领跑,中文完爆GPT-4!国际权威报告7项满分「全班第一」

HelloKitty 2023-07-20 17:00

扫一扫 在手机阅读、分享本文

1560

本文由 新智元 撰写/授权提供,转载请注明原出处。

文章来源于:新智元

作者:新智元编辑部

一觉醒来,好不热闹,Meta 深夜投出重磅炸弹,Llama 2 既开源还能商用,简直让大模型领域变了天了。

在 Azure 上可部署,在 Huggingface 上可下载,Meta 再次回到 AI 主战场,牛到不可思议。

短短一周内,硅谷是真卷起来了。Bing 推出 Bing Chat 企业版,Anthropic 发布 GPT-4 最强竞品 Claude 2,谷歌 Bard 也发布大量更新……

就在刚刚,小编也体验到了百度文心一言最新的文生视频、ChatFile 插件等新功能。

现在,文案、视频,全都能交给它来解决——

根据自己生成的内容,文心一言可以分分钟输出一个视频,连视频配文都帮你贴心地写好。UP 主们简直要笑疯!

据介绍,文字转视频的能力、直接生成视频的能力,目前是在百度内部测试。

IDC「AI 大模型评估报告」,文心大模型全班第一

与此同时,国际权威 IDC 发布了业内首个大模型评估报告——《AI 大模型技术能力评估报告,2023》。

报告中,IDC 从多维度测评大模型的能力,将大模型分为三大层服务生态、产品技术以及行业应用。

每个指标有 1 分-5 分五个层级,得分越高代表厂商大模型技术能力越强。

1.png

值得一提的是,百度文心大模型 3.5 拿下 12 项指标的 7 个满分,综合评分第一,算法模型第一,行业覆盖第一。

这三个绝对第一,体现了百度文心大模型的基础技术深度和产业应用覆盖广度。

根据 IDC 的报告,百度 AI 大模型整体竞争力位于领先水平,在模型能力、工具平台、生态布局以及行业覆盖上优势明显,并已提前进入商业化落地探索阶段。

2.jpg

从 3 月 16 日文心一言发布到 5 月,文心一言的「内核」文心大模型就升级到了 3.5 版本。

它实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强,插件机制等,模型效果提升了 50%,训练速度提升了 2 倍,推理速度提升了 30 倍。

既然文心大模型 3.5 是文心一言的内核,那就让我们看看 23 年 6 月 30 日上线的 V2.2.0 版文心一言,究竟强在了哪?

文心大模型 3.5,功能全面升级

这次,文心一言升级后最大的变化,就是全新的「插件」功能了。

3.png

可以说,插件就像给大模型们上了一层 buff,被禁锢的能力,瞬间就被释放出来。

比如 GPT-4 搭载的 Code Interpreter 就强到令人发指,甚至很多人说应该叫它 GPT-4.5 才对。

文心一言,当然也少不了强大插件的加持。

检索(热点实时追踪)

在搜索技术上,百度积累了大量优势。

「百度搜索」插件背后,是更强的搜索技术和更强的搜索底层架构。

而集成插件之后的文心大模型 3.5,现在可以对互联网各个角落的信息了如指掌。

比如今天的爆炸性新闻,Meta 发布了开源且免费商用的 Llama2,还和微软云服务 Azure、高通芯片都展开了合作。所以这对全世界大模型的格局会带来哪些改变?

文心一言指出,Meta 在 AI 领域重新拿回了影响力,大模型的商业模式也被彻底改变。

4.png

Meta 此举对于 OpenAI 和谷歌的商业版图,会有何影响呢?

文心一言总结得全面又透彻——增加竞争压力、激发创新活力、扩大市场份额、加速行业变革。

5.png

搜索和大模型的能力一结合,开了挂的文心一言,简直分分钟化身商业分析师。

文档(PDF/Word 都可以)

除了联网,百度这次还给文心一言新加入了一款 ChatFile 插件。

在上传文档之后,用户只要用自然语言,就能对其中的内容进行问答检索和总结摘要。

而且,通过这种超长文档的回答,ChatFile 可以大幅拓展模型处理文字的长度了。

在使用过程中,ChatFile 会对文档的每一个段落都进行语义索引和向量化建库。

6.gif

最近,猎聘大数据研究院重磅发布了一份《AIGC 就业趋势大数据报告 2023》,都有哪些核心内容?上传文档,文心一言几秒就能帮你做出又快又好的总结。

7.png

你还可以就文档细节,让它给你做个归纳总结。

8.png

或者让文心一言帮你总结一篇 arXiv 论文。

9.png

有了文心一言的 ChatFile 插件,以后看论文,是省时又省力了。

更懂中国人的大模型

文心一言,显然是更适合中国宝宝体质的大模型。

无论是文言文,还是知乎、小红书这类社交媒体文案的创作,当然还是我们自己的中文大模型最擅长。

10.png

进化后的文心大模型 3.5,直逼 GPT-4

正在热映的「长安三万里」,为我们重现了一把大唐的极致浪漫。

年少意气风发的李白,命运几番浮沉。

11.gif

他曾写下的「轻舟已过万重山」,也再次成为大家关注的焦点。

谪仙人李白写下这句诗时,究竟是怎样的心境?

12.png

在诗词歌赋这类中国传统文化方面的表现,文心一言可谓是相当出色。

不仅对答如流,而且还能分析出诗句的含义和妙处。

甚至,还给难(kao)读(dian)的词语,标上了拼音。

13.jpg

而 GPT-4 这边,堪称一个「缝合怪」。

一方面,通篇都没有原作曹操什么事,还把李白写的《赠汪伦》安在了陆游身上。

另一方面,诗句的补全更是离奇。前四句还好好的,然而从第五句往后,GPT-4 就开始放飞自我了……

14.png

再比如,北宋文学家欧阳修的《生查子•元夕》中,「月上柳梢头,人约黄昏后」描写的是哪个传统节日?

文心一言答:元宵节。

15.png

GPT-4 不仅误判成了中秋节,而且还替苏轼「写」了一首「临江仙·满江红」……

16.png

此外,对于成语的理解,文心一言也相当拿手。

17.png

正确与否,我们贴上来自「百度百科」的回答,就一目了然了。

18.png

相比之下,GPT-4 再一次陷入到了自己的幻觉当中。

19.png

中文创作,全面发展

写起古诗来,文心大模型 3.5 也是完胜 GPT-4。

比如以「思念无期」写一首藏头诗。

文心一言不仅完美藏了头,离别之苦、思君之愁的感觉也一并表达了出来。

20.png

GPT-4 写的藏头诗,相比之下可是逊色了不少。

21.png

一句话:写诗,还得看咱们自己的大模型!

另外,文心一言不仅是一位「文学大师」,还是一位「文案高手」,可以根据不同平台的风格调性,创作贴合的文案。

用知乎体回答一下:「人生中拿到一副烂牌被自己打好了是种怎样的体验?」

「谢邀」俩字一出,张口就知是老知乎 er了。

22.png

最近,「特种兵旅游」、「夕阳红老年团游」都 out 了,现在流行的是 Citywalk。那就请文心一言写一份北京的 citywalk 线路吧。

23.jpg

经常上网冲浪的盆友们,你们是不是经常遇到这种文案,文采飞扬、意境绝佳,但就是不知所云。

有了文心一言,对方来一句,咱们来十句。讲不讲得通另说,要的就是一个气势。

24.png

就在刚刚,2023 年的暑期档电影票房已经超过了 90 亿元。

虽然不能亲自到影院,但会上网的文心一言,写起影评来是真不在话下。

25.gif

有人说,大龄程序员的归宿就是送外卖和开奶茶店。

26.png

干到三十多卷不动了,带着 50 万存款回老家开一家奶茶店可行吗?文心一言帮你分析。

27.jpg

玩梗,它是独树一帜

对于那些独属于中文互联网的热梗,文心一言就更加如鱼得水了。

在「百度搜索」插件的加持下,文心一言把最近流行的「白人饭」给解释得明明白白。

28.png

面对同样的问题,GPT-4 也必须开启一些「科技与狠活」,才能 get 到。

至于回答的质量,两个大模型可以说是不相上下。

29.png

相比之下,无法联网的 GPT-3.5,就一脸懵圈了。

30.png

「哈基米」也算是一个洗脑了无数人的 bgm。所以,这究竟是什么梗?

文心一言立马说出了「哈基米」的出处,其实在日语中,原音为はちみ。没想到,被网友用来给猫猫视频配音后,火遍全网。

31.png

除了热梗,文心一言还很懂流行的 emoji,比如常见的。

32.png

对于很多人都不太懂的「阴阳脸」,文心一言不仅解读 emoji,还给出了场景解释和使用警告。

33.png

打工人最爱的效率小助手

邮件、脚本、策划、思想汇报、旅游攻略……文心一言,让你的摸鱼打工生活更轻松!

多么个性化的需求,它都能给出逻辑清晰、内容充实的答案。

34.jpg

制图能力

如今的文心一言,在「绘制表格图示」的能力上,得到了巨大的提升。

之前的 3.0,做出的工作计划表还略显粗糙。

35.png

到了 3.5,制表能力显然已经全面升级,内容安排十分合理。

36.png

此外,更新到 3.5 版本的文心大模型,还能根据表格内容画出对应的柱状图。

37.png

数学代码大提升

在这次升级中,同时增强的,还有数学、推理,以及代码能力。

比如,文心一言曾经一直做不出来的加速度问题,进化后的 3.5 版本就可以轻松搞定。

38.png

此前文心一言版本

39.png

目前文心一言版本

现在,让它手写一段「统计字符串中出现次数最多的字符及次数」的代码,升级后的文心一言,一次就给出了能用的代码,并且附上了每段的释义。

甚至,还完美解决了出现次数最多的字符不止一个时的情况。

40.jpg

输出结果如下:

40.png

一些有趣的应用

除了知识渊博,文心大模型 3.5 还是个有趣的灵魂。

角色扮演

最近,很多网友被确诊为沈眉庄,因为到处都是游客只想窝在家里。还有一些人被确诊为安陵容,因为每天都觉得好累。

而文心一言的角色扮演功能,当然也不容错过。

41.png

没事和大模型辩论几句,也算是非常锻炼口才和逻辑能力。

42.png

和文心一言你一句,我一句的暗号,家人们谁懂?

43..png

多模态生成

现在,数一数全世界的大模型,有多模态能力的大模型真没有几家。

而作为「全村骄傲」的文心一言,在跨模态内容的生成上,也在稳步提升。

文生图、文生音频、文生视频、图生文字……跨模态内容生成,就是文心一言的「独门秘术」。(部分功能未完全开放体验)

比如,生成一个「赛马娘」风格的二次元女孩。

44.png

确实,有那味了。

45.png

之前,文心一言画的「林黛玉倒拔垂杨柳」虽然很酷炫,但和「林黛玉」不能说是一模一样,可以说是毫不相干。

46.png

而 3.5 画的版本,就很有83版《红楼梦》里那个时代特有的圆润古典美女 feel 了。

47.png

画汉服美女,生成的图片也比之前自然了许多。

48.png

另外,文生音频也是文心一言的独门秘术。

49.png

百度文心凭什么「卷」?

从文心一言的发布到现在,文心大模型实现了从 3.0 到 3.5 的华丽转身。

我们也看到了,文心大模型 3.5 模型的性能已经取得了重大飞跃,在问答、创作、推理等任务上表现出色。

与此同时,IDC 报告中对文心大模型能力评估结果的客观性也得到了印证。而且其算法模型是 9 个评估者中唯一一个取得满分的模型。

文心大模型 3.5 在基础模型训练上,采用了飞桨最先进的自适应混合并行训练技术+混合精度计算策略。

还采用多种策略优化数据源及数据分布,大大加快了模型的迭代速度,显著提升了模型效果和安全性。

50.png

此外,百度文心大模型研发团队创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术,使模型效果及场景适配能力进一步显著提升。

51.png

那么,为什么文心大模型能够成为国内的领先者?

首先,百度能够成为全球科技大厂中第一个发布类 ChatGPT 大模型公司,是因为在模型研发上有长期的投入和积累。

其实早在 2019 年 3 月,百度就发布了预训练模型文心 1.0(ERNIE 1.0),并且不断迭代到 2.0、3.0、3.5 版本。

52.jpg

而文心是百度自主研发的产业级知识增强大模型,借助海量的知识积淀和丰富的应用场景,让其具备了知识增强、产业级两大特色。

其中包括了 NLP、CV、跨模态等基础模型,对话、跨语言、搜索、信息抽取等任务大模型,生物计算领域大模型,行业大模型,以及支撑大模型应用的工具平台,形成了「基础-任务-行业」三级大模型技术体系。

53.png

其次,百度是全球为数不多在 IT 四层架构(芯片层、框架层、模型层、应用层)都有全栈布局的 AI 公司。

百度在这四层,都有全栈自研的技术产品。并且,层层领先,可以实现端到端优化,大幅提升效率。

除了刚刚提到的模型层,百度在芯片层有昆仑芯。目前,已经成功部署几万片,第三代预计 2024 年初就能量产。

在深度学习框架层,百度飞桨是中国首个自研的开源开放的深度学习平台,在中国的市场综合份额排第一。

在应用层,百度全部产品都在进行着 AI 原生的重构。

得益于四层架构端到端的优化,尤其是框架层和模型层的协同优化,才使得文心大模型效果、训练、推理速度飞速提升。

百度文心凭什么「卷」?

文心 1.0 发布后,百度率先推出了行业大模型,构建大模型工具与平台。

文心大模型对外提供一系列大模型开发套件、大模型 API,以及集成文心大模型的飞桨企业版 EasyDL 和 BML 开发平台。

这样能够面向不同开发者,以全面释放大模型使用效能,降低应用门槛。

基于多年来的技术生态,以及四层架构的打下的基础,才让文心大模型能够从众多模型中脱颖而出。

百度创始人、董事长兼 CEO 李彦宏曾表示,所有的应用都将基于大模型来开发,每一个行业都应该有属于自己的大模型。

文心大模型也不例外,目前已经在搜索、信息流、智能音箱等互联网产品实现大规模应用。

IDC 评估结果显示,百度文心大模型在行业覆盖上获得唯一满分成绩,在能源、金融、教育、医疗等领域已经实现广泛业务布局和落地场景探索。

以能源电力为例,百度文心联合国家电网有限公司,面向复杂电网的专业场景,基于文心大模型训练了电力行业大模型。

百度也和深圳燃气联合发布了燃气行业大模型,破解燃气企业运营场景繁杂、安全风险识别困难等难题。

另外,还有面向金融行业、汽车行业、制造行业等领域的大模型。

未来,百度文心大模型将不断利用其算法模型的基础技术优势,帮助各行各业将大模型转化为自身的生产力工具,实现智能化的转型与升级。

确定无疑的是,文心大模型仍将不断迭代,为千行百业赋能,进而改变世界。

最新.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章