​OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面直接细节爆炸

HelloKitty 2023-09-21 16:53

扫一扫 在手机阅读、分享本文

3098

本文由 量子位 撰写/授权提供,转载请注明原出处。

本文来源:量子位(QbitAI)

作者:梦晨 萧箫

起猛了,OpenAI 竟然把AI绘画和 ChatGPT 合并了!

这不,最新发布的 DALL·E 3,直接给 AIGC 带来了两大震撼——

. 提示词门槛极大降低

. 理解语意的细微差异的细节描述,准确到令人发指

1.png

没错,新版 DALL·E 3,不仅省去了提示词工程,还顺带把语言理解能力提升了一个档次!

你只管随意想象。词,ChatGPT 帮你拓展;画,DALL·E 3 给你精确到细节。

AI 就能像拍电影一般,保证从背景到人物,细节一字不差地复刻出来:

满月下的街道,熙熙攘攘的行人正在享受繁华夜生活。

街角摊位上,一位有着火红头发、穿着标志性天鹅绒斗篷的年轻女子,正在和脾气暴躁的老小贩讨价还价。

这个脾气暴躁的小贩身材高大,老道,身着一套整洁西装,留着引人注目的小胡子,正在用他那部蒸汽朋克式的电话兴致勃勃地交谈。

2.png

除了基础细节,DALL·E 3 甚至能将模糊的形容词如繁华、讨价还价、脾气暴躁演绎得活灵活现,和 CLIP 已经不在一个档次了。

同时,相比上一代老模型,DALL·E 3 自身的画技也前进了一大步:

3.png

这般操作,直接把网友看愣了。

有网友已经决定取消 Midjourney 订阅了。“如果 Midjourney 无法准确理解文本,这甚至称不上是同台竞技。”

4.png

5.png

还有网友调侃,这简直就是给即将到来的谷歌 Gemini 上压力。

6.png

更多细节,我们从 DALL·E 3 展示的效果一一来看。

在 ChatGPT 里直接用

相比前两代,DALL·E 3 最大的优势在于原生构建在 ChatGPT 之上。

不仅意味着语言理解能力大幅飞跃,甚至提示词都可以让 ChatGPT 自己来写。

更多细节藏在奥特曼都忍不住自夸可爱的宣传视频里。

7.png

这是一个家长把 5 岁小朋友脑海里的幻想变成现实的故事。

首先家长询问 ChatGPT,“我家 5 岁宝宝一直在说一个’超级向日葵刺猬’,它该长什么样?”

可以看到 ChatGPT 同时写了四段不同风格的提示词,并给出对应图像。

8.gif

家长选择其中偏童话插图风格的一张后,故事的主角小刺猬形象似乎就能固定下来了,可以继续请 ChatGPT 画出更多。

顺便给小刺猬一个名字 Larry,后面的对话中就不用每次都说“超级向日葵刺猬”了。

9.gif

主角定好了,接下来再添加更多元素,让整个童话故事更丰富,比如给 Larry 画个房子。

这里既展示出了 DALL·E 3 创作一致形象的能力,也展示出邮箱上正确写上了 LARRY 的名字,解决了之前版本 DALL·E 不会写字的问题。

11.gif

反正都用上 ChatGPT 了,不如把故事情节也完善一下?

12.gif

刚编好的情节立马就可以有配套的插画了。

12.gif

保持角色形象,迁移到完全不同的贴纸画风也没问题,可以直接打印出来。

13.gif

注意了,最绝的地方来了,直接让 ChatGPT 总结前面对话中所有内容,写成一个完整的睡前故事。

14.gif

虽然演示到此结束,但完全可以想象配合 ChatGPT 插件功能,还可以直接生成一本电子书出来。

15.gif

就让人想起之前网友提议,确保 AI 安全的最佳方法是让 OpenAI、Anthropic 等公司的员工都有孩子。

这样他们就有动力确保 AGI 到来时世界是安全的。(手动狗头)

16.png

虽然 DALL·E 3 现在还不能马上玩到,一次放出的大量样张也可以先看个饱了。

17.png

每一张点开还可以看到提示词,都是直接用人话描述,没怎么加复杂咒语的那种。

18.png

复杂场景与不存在的概念组合,效果很惊艳。

19.png

搞室内设计概念图,光影明暗关系乍看也挑不出毛病。

20.png

配合正确写字能力,直出海报也是生产力拉满(没指定文字的小字部分还有些问题)。

21.png

刚加入 OpenAI 不久的德扑 AI 之父 Noam Brown 也晒出了他试玩的机器人打牌图。

22.png

CEO 奥特曼最喜欢的则是这张“牛油果看医生”。

23.png

24.png

有网友去试了同样的提示词用在 DALL·E 2 的效果,只能说字也不对、牛油果中间的洞没话出来,治疗是更是没有……

25.png

还记得 2021 年 1 月 DALL·E 1 刚出的时候吗?梦开始的地方就是一组“牛油果做的沙发”。

也难怪网友感叹:看看它走了多远!

26.png

“如有侵权,请来删图”

当然,除了上述特性以外,OpenAI 也预告了一些神奇的新功能。

例如,DALL·E 3 即将配套推出一个图像鉴别器。

这个分类器可以帮助识别图像是否由 DALL·E 3 生成,不仅能避免误伤(手动狗头),也能在 DALL·E 创作出好作品时快速将它认领成自己的。

27.png

至于在生成图像上,OpenAI 自述也做了大量工作,防止其生成暴力、色情或其他有害图片,或是带有公众人物(明星、名人等)姓名的图像生成。

关于隐私方面,之前纽约时报就曾爆料称,OpenAI 正在通过某些技术,模糊掉上传到 ChatGPT 的图像中的人脸。

这也是为了避免 ChatGPT 变成一个彻底的“人脸识别工具”,尤其是已经有不少照片流传到互联网上的名人明星们。

如今这个技术可能也被用到了 DALL·E 3 中,防止生成侵权图像。

同时,OpenAI 也与安全红队合作,提高了图像风险评估的能力。

除此之外,在训练数据上,有了 Midjourney 的“前车之鉴”,OpenAI 这次也学会了保护自己。

相比于直接和画手打官司、或者等着被起诉,OpenAI 在官网放出了一则训练数据“免责声明”:

您可以填写表格,禁止我们的网络爬虫 GPTBot 访问您的网站。或者,您也可以发送您想要保护隐私的图像,我们会把它从训练数据中删掉。

28.png

不过也有网友对 DALL·E 3 演示效果不满意,认为比不上 MidJourney 资深玩家出的图,OpenAI 的资金可是充裕 n 多倍啊。

29.png

还有网友开启列文虎克模式,开始挨个挑演示图中漏掉的提示词细节。

比如这张杯子里缺少微型闪电。

30.png

这张散落在海底的只有大炮残骸,没有宝藏。

31.png

具体这些问题能不能通过调整提示词改善,就要等实际上手玩过才知道了。

那么 DALL·E 3 具体什么时候上线呢?划重点了:

. ChatGPT Pro 会员(20 美元/月)和企业版在 10 月可用。

. 独立版在今年秋天晚些时候提供(目前价格 15 美元可以玩 115 次)。

参考链接:
[1]https://openai.com/dall-e-3

[2]https://www.nytimes.com/2023/07/18/technology/openai-chatgpt-facial-recognition.html

[3]https://twitter.com/sama/status/1704547625482203560

微信图片_20230911094302.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章