GPT4、ChatGPT大比拼：餐巾纸草图变网站，中文能力还是差！

HelloKitty • 2023-03-16 14:51

扫一扫在手机阅读、分享本文

2308

本文由 51CTO技术栈撰写/授权提供，转载请注明原出处。

文章来源于：51CTO技术栈

作者：云昭

一开始据说是本周四发布，结果 en~~ 周三凌晨就发布了，果真，OpenAI 向来喜欢提前给人们制造惊喜！

GPT4、ChatGPT 大比拼

废话不多说，先上 GPT4 的硬技能。

首先，是长文本处理的能力，OpenAI 官网上是这么描述的：“GPT4 能够处理超过 25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。”

OpenAI 怕大家不能很形象的理解，干脆用一篇维基百科的长文举了个例子，这个文本有多长呢？小编实际点开了链接（见下图），要比目前 ChatGPT（GPT3.5）能处理的文本长出一倍去。不信的朋友可以去这个链接：https://en.wikipedia.org/wiki/Rihanna 看一看实际长度。

对于文本对话任务，两者表现几何？OpenAI 官方是这样说的。

在随意的交谈中，GPT3.5 和 GPT4 之间的区别可能很细微。当任务的复杂性达到足够的阈值时，差异就会显现出来。GPT4 比 GPT3.5 更可靠、更具创造力，并且能够处理更细微的指令。

GPT4 的上下文长度为 8192 个令牌。OpenAI 还提供了对 32768 上下文（约 50 页文本）版本 gpt-4-32k 的有限访问，该版本也将随着时间的推移自动更新（当前版本 gpt-4-22k-0314，也支持到 6 月 14 日）。定价为每 1K 提示令牌 0.06 美元，每 1K 完成令牌 0.12 美元。

OpenAI 仍在改进长期环境下的模型质量，并希望得到有关它在的用例中表现如何的反馈。OpenAI 根据容量以不同的速率处理 8K 和 32K 引擎的请求，因此可以在不同的时间访问它们。

第二个，对图像的识别能力：接受图像作为输入。

GPT4 可以接受文本和图像的提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。具体来说，它生成文本输出（自然语言、代码等），给定由穿插的文本和图像组成的输入。在一系列领域，包括带有文本和照片的文档、图表或屏幕截图，GPT4 表现出与纯文本输入类似的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术来增强，包括少量镜头和思维链提示。遗憾的是，图像输入仍然只是研究预览阶段，暂时没有公开。

（问题和答案都是英文：为了便于理解，已翻译为中文）

图片上给出了一些食材，问 GPT4 可以根据图片上的食材做哪些美食。可以看出 GPT4 正式跨界了！

第三个，更靠谱的推理能力。

GPT4 较之前的模型，更具有创造性和协作性。它不仅能够完成许多创意和基础写作，而且还能创作歌曲、剧本，重要的是还能学习用户的写作风格。

关于推理能力这块，OpenAI 还给出了一个让 GPT4 预定会议室的例子：

问题大致是这样的：三个人在每一天的空闲时间不一样，让 GPT 找出一个 30 分钟会议的合适时间。

可以看出 ChatGPT 的逻辑思路和文本分析的都没毛病，但给出的答案全错。而 GPT4 则给出了正确的答案。

GPT4 还有一个更强的 BUFF，让它参加考试，会碾压不少学霸！而 ChatGPT 则弱爆了！

在统一律师考试中取得了前10%的成绩，而 ChatGPT 获得了倒数 10%。

除此之外，OpenAI 还给出了 SAT 等其他考试的排名，均比 ChatGPT 能扛能打！

与 ChatGPT 比起来，还有哪些硬货？

GPT4 的可操作性更加灵活。使用过 ChatGPT 的朋友都知道，如果用 API 提交请求的话，一般有两个消息：系统消息（规定的 AI 风格和角色）和用户消息（具体提出的问题）。之前的 ChatGPT 对于系统消息不太看重，风格、语调比较固定。

而 GPT4 则不然，开发人员（以及很快的 ChatGPT 用户）现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务，系统消息允许 API 用户在一定范围内显著自定义用户体验。OpenAI 将继续在这里进行改进（尤其要知道，系统消息是“越狱”当前模型的最简单方法，即，对边界的遵守不再那么死板），OpenAI 也非常鼓励让他们知道用户想要尝试这些 ideas。

还有对多语种的支持能力也更强。测试的 26 种语言当中，有 24 种要比 GPT3.5 和其他的语言模型的精确度都要强。