体验当甲方的快乐!用嘴指挥DALL·E 3设计LOGO、做梗图、画漫画……

HelloKitty 2023-10-16 17:36

扫一扫 在手机阅读、分享本文

2476

本文由 头号AI玩家 撰写/授权提供,转载请注明原出处。

文章来源于:头号AI玩家

作者:卷毛

编辑:松露

全自动画图神器来了!ChatGPT 现在能直接出图了。

只需要告诉 ChatGPT 你想要一张什么图,ChatGPT 就能直接帮你写好完整的描述词,给到 DALL·E 3 生成图片。像这张混合星云爆炸的扣篮创意图,换成以往的 AI 绘图产品,一般都需要费力编写大段的“咒语”才能实现。

1.png

“一幅表现篮球运动员扣篮的油画,描绘的是星云的爆炸”,图源 DALL·E 3

DALL·E 3 是 OpenAI 最近推出的新版 AI 绘图模型,原生构建在 ChatGPT 之上,进一步降低了 AI 绘画门槛,用户可以在对话中将自己的想法转化成准确的图像,甚至还能画出正确的文字。

2.gif

用户问ChatGPT“我5岁的孩子说的超级向日葵刺猬,它应该长什么样子”,ChatGPT立马写了四段不同风格的提示词,并生成对应图像

3.png

“这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 Find the universe within you”,图源DALL·E 3

目前只有一小部分 ChatGPT Plus 用户获得了内测资格。不过很快,与 OpenAI 深度合作的微软便将 DALL·E 3 集成在浏览器 Bing 中,可供所有 Bing Chat 和 Bing Image Creator 用户免费使用。由于来尝鲜的用户太多,Bing 最近流量激增,报道称微软又紧急增加了数千台服务器上线。

4.png

有了 ChatGPT 支持的 DALL·E 3 真的像介绍的这么厉害吗?和 Midjourney 等其他 AI 绘画产品又有什么区别呢?“头号 AI 玩家”在 Bing 上对 DALL·E 3 进行了一番测评。

p.s. 想要体验的玩家可以访问以下两个入口,登录微软账户即可使用,目前Bing Image Create每天有25次免费的快速生成额度,用完之后生成图片需要更长的时间。

5.png

Bing Image Create网址:https://cn.bing.com/create

6.jpg

Bing Chat网址:https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q

文章插图

内容创作者为了减少购买版权素材的成本,或者快速找到符合需求的图片,可能会试着用 AI 生成配图。

我们先用简短的提示词试试,输入“画一个招聘市场”,DALL·E 3 默认生成了四张 1024*1024 分辨率的图片,内容相似,都是拿着放大镜观察市场数据。

7.png

我们可以给出更详细的要求,比如“画一个现实里的招聘市场,人来人往,非常热闹”。不过 DALL·E 3 理解错了现实里的意思,变成了插画风格,并写上了文字“Real Job Market”,部分图片的文字还出现了错误。

8.png

作为甲方,我们再次提出了修改意见——“人头攒动的招聘市场,写实摄影,不含文字,横屏”。可惜的是,DALL·E 3 给出的图比较抽象,虚实结合,还是出现了文字。

9.png

相比之下,同样的提示词,Midjourney 的理解就比较准确了,满屏都是求职者。

10.png

Crowded recruitment market, realistic photography, no text --ar 16:9 --v 5.2

换一个简单点的描述看看,“两个中国人在面试中”,这下 DALL·E 3 的表现基本不错,只是交叉的手指都没处理好。

11.png

而 Midjourney 与 DALL·E 3 的理解不同,认为是两个人在面对面对谈,四张图的人物、环境、风格差异都比较大,细节上比 DALL·E 3 更真实一些。

12.png

Two Chinese people during the interview --ar 16:9 --v 5.2

DALL·E 3 的特色在于能够在对话中生成图像,除了给出明确的提示词,我们还可以试着直接输入一段文字,要求生成符合文意的配图。

13.png14.png

这段话讨论了非技术人员怎么跟上 AI 浪潮,语义复杂,并没有描述具体的人或事物,DALL·E 3 的结果令人惊喜,有一座富有科技感的未来城市和工作在其中的人们,也有许多人围绕着智慧大脑的脉络进行工作,从不同角度切中了文意。

我们试着在其中一张原图的基础上继续加入文字“AI”,但是 DALL·E 3 重新生成了四张跟原图无关的图片,似乎不能直接修改已生成的图片,比如调整一些细节。

16.png15.png

LOGO 设计

既然有了 ChaGPT 支持,我们不妨让 DALL·E 3 帮我们完善想法,自动生成详细提示,定制一张个性化的 LOGO。

17.png
18.png

一开始 Bing 认为“头号 AI 玩家”与人工智能和游戏有关,所以设计的 LOGO 主体是一个机器人拿着游戏手柄。在补充了账号信息和主色调后,Bing 以人工智能头像和数字1为主要元素重新设计了四张图。

19.png
20.png

第三张感觉更简洁一些,我们继续沟通修改。

21.png

22.png

23.png

24.png

可以看到,Bing 能比较好地理解需求,但生成的文字有时不太准确,需要再后期修改。对比 Midjourney,我们无法实现这样来回的沟通,只能自己琢磨提示词,并且很难生成 AIGC 这么多文字,Midjourney 的优势在于生成的图片质量比较高,设计感更强。

25.png

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v 5.2

产品图/营销图

在广告营销、电商领域,AI 商品图的应用越来越多,那么 DALL·E 3 能生成可用的素材图吗?

我们先让 Bing 生成一只中式风格的、适合秋冬使用的手提包,看来它理解的中式是喜庆、刺绣、流苏。

26.png

换成传统与现代结合的新中式风格呢?果然变成了黑色、金色为主的皮质包包,不过还是保留了复杂的刺绣图案。即使要求装饰简约一点,Bing 理解的中式风格依旧离不开刺绣。

27.png
28.png

而 Midjourney 生成的显然更素雅一些,背景也更简洁。

29.png

A new Chinese-style handbag that combines tradition and modernity for autumn and winter, with light and neutral colors and patterns --v 5.2

如果想换个背景和场景,比如秀场上,一个优雅的女模特拿着这只包,那 Bing 暂时还做不到,会像前文一样重新根据描述生图。

30.png

最近推特上还流行一种 DALL·E 3 的玩法,用来生成一些排列整体的 Knolling 摄影照片,如下图所示,一个主体周围有许多相关物品环绕,放置在干净的背景上。

31.png

X@chaseleantj

想生成类似的图片却不知道怎么写提示词, 没关系,直接问 Bing 就行了。

32.png

33.png

34.png

创意梗图

AI 降低了创作的门槛,可以帮助我们把脑中的奇思妙想画出来,其随机性也扩宽了想象力的边界。因而,创意梗图一直是 AI 绘图领域的热门类型。

我们来开开脑洞,让 Bing 画一只巨大的猫咪爬在东方明珠电视塔上。

35.png

只有左下的一张比较符合要求,其他东方明珠塔的数量和造型都有些错误,而且猫咪看起来像是动画建模,不太真实。

Midjourney 虽然画出了真实的猫,但地点不在东方明珠塔,大小比例也不对。

36.png

A giant cat climbing on the Oriental Pearl TV Tower --v 5.2

下面我们再画一张最近的热门 IP 表情包,“Loopy 正在上班”。

37.png

起初 Bing 不认识 Loopy,理解成了古怪的、疯狂的意思。我们告诉 Bing 它来自韩国动画片《小企鹅 Pororo》之后,Bing 表示明白了,却把正在工作的主角换成了企鹅。

38.png
39.png
41.png
40.png

看来 DALL·E 3 还缺乏对于最新流行的素材训练。如果换成更经典的IP,那么 DALL·E 3 和 Midjourney 都能准确表现,并且 DALL·E 3 还配上了文字“假装上班,正在摸鱼”。

42.png
43.png

A meme of Pikachu working at a computer --v 5.2

最近 AI 绘画还流行一种模仿 iPhone 拍摄的恐怖照片风格,非常贴合万圣节的氛围,我们试试直接输入这一大段的描述。

提示词:“a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."

44.png

四张图片基本都满足要求,左上的皮卡丘有点怪可爱的。但是同样的提示词,Midjourney 就不能完全理解,还是需要转换成“咒语”。

45.png

故事书/漫画

在 OpenAI 官方演示中,ChatGPT 可以通过自然的对话生成一只想象中的刺猬,并逐步生成完整的故事情节、绘本和系列贴纸。所以画故事书/漫画的流程被大大缩短了,如果你有一个想法,可以让 AI 先帮忙扩写故事、描绘场景,然后根据自动生成的提示词画出完整作品。

以丑小鸭变天鹅的故事为例,我们要求 Bing 把这个过程以儿童绘本的形式画出来。

46.png

47.png

48.jpg

Bing 虽然一口气生成了三个画面,的确有丑小鸭和白天鹅,是儿童绘本的形式,但是前后缺乏逻辑关系,情节呈现不完整,可能还是需要自己按照一个个情节依次引导生成。

49.png

50.png

51.png

Bing 还可以重新创作一个新的故事,比如它帮我设想了一个拥有超能力的超级英雄“洋葱侠”,画出了它和邪恶厨师的战斗画面。真别说,故事梗概和画面都挺符合我的想象的,你觉得怎么样呢?

52.png
53.png

小结

通过以上测评,可以看到 DALL·E 3 在搭载了 ChatGPT 后,可以完全用自然语言进行交流,在对话中绘图创作,不用复杂的提示工程,简短的提示词就能生成不错的图片,对抽象需求的理解能力也比较强,支持中文。不过文生图仍然是越详细的描述,输出越准确,这一点没有变。

DALLE·3 和 Midiourney 等其他 AI 绘图产品相比,各有其优劣势:

在使用体验和交互上,DALLE·3 的交互式绘图比较直观方便,降低了使用门槛,还能直接读懂大段文字自动作图。Midjourney 目前主要在 Discord 平台上运行,需要在特定的频道里输入描述,不能文字交互。文心一言虽然也可以在网页上通过对话绘图,但缺少上下文理解,不能继续调整,目前一次只能生成一张图。

54.png

图源文心一言

在生成图片方面,DALL·E 3 的优势是能生成较为准确的文本,可能有错误,但其他 AI 绘画产品目前直接文生图得到的文字都难以辨认,需要借助微调模型上传参考文字再融合。DALL·E 3 默认生成 1024*1024 的正方形图片,适用范围较窄,而 Midiourney 可自定义多种尺寸,其他AI绘图产品基本都支持不同比例。

对于写实风格的图片,DALL·E 3 生成的人脸和手看起来可能失真,而 Midiourney 目前 V5.2 版本已经非常逼真了,Stable Diffusion 也有超写实的人像模型。

另外,在 Bing 上要求修改图片的时候,Bing 是根据对话修改提示语再输入 DALL·E 3 进行生成,而不是直接修改已生成的图片,DALL·E 3 暂时还不能像 Midjourney 一样快速进行微调,包括扩图、修改局部细节,更不用说 Stable Diffusion 复杂的参数调整了。所以作为专业创作者的生产力工具而言,DALL·E 3 的实用性还不够强。

在安全问题上,DALL·E 3 的内容限制较为严格,拒绝生成涉及公众人物、暴力、成人或仇恨内容的图像,比如要求画一张马斯克在火星上的照片,Bing 显示无法创建。

55.png

根据 OpenAI 发布的 DALL·E 3 的 22 页技术报告,ChatGPT 会改写提示,包括删除公众人物的名字、将人物与特定属性联系起来,以及以通用方式书写品牌。OpenAI 还开发了图像分类器来检测图像中的存疑内容并阻止模型继续生成。

56.jpg

报告地址:https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同时,微软表示,为了保证用户通过 Bing Image Creator 创建的内容的安全性,已经在生成的图片中内置了,符合 C2PA 规范的数字水印,包含图片创立日期、出处等信息。人的肉眼无法看见这些水印,但 AI 能识别出来。

总之,OpenAI 的 DALL·E 3 现在加上了理解文字和图像的智慧大脑,我们可以把 ChatGPT 作为合作伙伴一起头脑风暴进行创作,无论是出于娱乐爱好或者专业需求。AI 绘画模型正在不断进化,根据不同的用户需求和适用场景可以选择不同的工具,DALL·E 3 不会完全替代其他产品,但新的创作方式已经更进一步了。

微信图片_20231011143200.png

微信图片_20231011143203.png

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

精选活动 更多 >

{{ val.activity_name }}

{{ val.province ? (val.province + ' ' + val.city) : val.location }}
客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章