AI美女全军覆没!赛博照妖镜下集体变“鬼”,AI代码拆台AI生图

HelloKitty 2024-08-13 17:46

扫一扫 在手机阅读、分享本文

3762

本文由 量子位 撰写/授权提供,转载请注明原出处。

本文来源:量子位(QbitAI)

作者:明敏 克雷西

赛博照妖镜下,AI 美女全变鬼。

来看它的牙。

1.png

把图像饱和度拉满,AI 人像的牙齿就会变得非常诡异,边界模糊不清。

整体图片的颜色也正常,麦克风部分更是奇怪。

对比真实人类照片,则应该是这样的。

牙齿是清晰的,图片色块都是均匀一致的。

2.png

这个工具已经开放,人人都能拿着照片去试试。

AI 生成视频中的某一帧,也难逃此大法。

3.gif

不漏牙的照片也会暴露问题。

4.png

不过BTW,这个工具出自Claude之手。用AI破解AI,奇妙的闭环。

5.png

有一说一,最近 AI 人像太逼真又引发了不小讨论,比如一组大火的“TED 演讲者视频”,其实没有一个是真人。

6.gif

不只是人脸难以区分,就连之前 AI 的短板——写字,现在都能完全以假乱真。

7.png

更关键的是,生成这样的 AI 人像,成本也不高。低至5分钟、每 20 秒 1.5 美元(人民币 10 块左右)的价格即可搞定。

8.png

这下网友们都坐不住了,纷纷搞起 AI 打假大赛。

近 5 千人来讨论,这两张图到底哪张是真人。

9.png

给出的理由五花八门。有人发现文字、花纹细节很抽象,有人则觉得人物眼神很空洞……

最先进的 AI 们生成人像有啥规律,逐渐被大家摸索出来了。

不看细节已很难分辨

汇总来看,调整饱和度或许是目前最快速辨别的方法。

AI 群像照在这种方法下暴露得更加彻底。

10.png

不过它存在一个问题。如果图像用 JPEG 算法压缩过后,该方法可能失效。

比如确定这张照片是真人照片。

11.png

但是由于画质压缩以及光线等问题,人物牙齿也有点模糊。

12.png

所以网友们还列出了更多分辨人像是否是 AI 合成的方法。

第一种方法,简单说就是依靠人类的知识判断。

由于 AI 学习图像的方式和人类并不一致,难免无法 100% 掌握人类视角下的视觉信息。

造成的结果就是,AI 生成的图片常常包含与现实世界不符之处,这就为图像的鉴别提供了着手之处。

用开头的这张图片作为例子。

从整体上看,人物的皮肤过于光滑,看不到任何的毛孔,这种过于完美的特征反而增加了不真实感。

当然这种“不真实感”并不完全等同于“造假”,毕竟经过磨皮处理的图片同样看不到毛孔。

但这也并非唯一的判断因素,AI 在图片中留下的与常识的出入也未必只有一处。

13.png

实际上,这张图只要稍微看以下细节,就能看到一个比较明显的特征——胸牌上方挂钩奇特的连接方式。

14.png

还有在高饱和度模式下露出破绽的麦克风,放大之后直接用肉眼也能看出端倪。

15.png

更为隐蔽的是,头发末端有几根毛发的位置很不合理,但这样的特征,恐怕要拥有列文虎克级别的视力才能看到了。

不过,随着生成技术的进步,能够找到的特征越来越隐蔽,也是一个无法避免的趋势。

16.png

还有一种方法是看文字,虽然 AI 在字型的刻画上正逐渐克服“鬼画符”的问题,但正确地渲染出有正确实际含义的文字还存在一些困难。

比如有网友发现,照片中的人佩戴的胸牌上,Google 标志的下方最后一行字中的两个字母是“CA”,表示美国加州,前面的一大长串应该是城市名。

但实际上,加州根本没有名字如此之长的城市。

17.png

除了这些物体本身的细节,还有光线、阴影等信息也可以用来判断真伪。

这张图片是从一段视频当中提取的,在它所在的视频当中还有这样的一帧。

在话筒右侧的位置,有一片十分诡异的阴影,这片阴影对应的是人物的一只手,显然AI在这里处理得有所欠缺。

18.png

说到视频,由于涉及前后内容一致性,AI 倒是比在静态图像中更容易露出鸡脚马脚。

19.png

还有一些特征不算“常识错误”,但也体现出了 AI 在生成图像时的一些偏好。

比如这四张图,都是 AI 合成的“普通人”(average people),有没有发现什么共同之处?

20.png

有网友表示,这四张图里的人,没有一个是笑脸,这点似乎就体现了 AI 生图的某种特征。

21.png

针对这几张图而言确实如此,但这样的判断方式很难形成系统,毕竟不同的 AI 绘图工具,特点也都不尽相同。

总之,为了应对逐渐进步的 AI,一方面可以加大“列文虎克”的力度,一方面还可以引入像拉高饱和度这样的图像处理技术。

但如果这样的“量变”积累得越来越多,肉眼判断也会越来越困难,图像饱和度可能也有被AI攻破的一天。

所以人们也在转变思路,想到了“以模制模”的方法,用AI生成的图片训练检测模型,从图像中分析更多特征。

比如 AI 生成的图像在频谱、噪声分布等方面存在许多特点,这些特点依靠肉眼无法捕捉,但 AI 却能看得很清楚。

当然,也不排除检测方法落后、跟不上模型变化,甚至模型开发者专门进行对抗性开发的可能。

比如前文一直在讨论的这张图片,某 AI 检测工具认为它是 AI 合成的概率只有 2%。

22.png

但AI造假和AI检测之间的博弈过程,本身就是一场“猫鼠游戏”。

所以在检测之外,可能还需要模型的开发者也负起一些责任,例如给 AI 生成的图片打上隐形水印,让 AI 造假无处遁形。

AI 魔高一尺

值得一提的是,如上引发恐慌的 AI 人像,不少都是由最近爆火的 Flux 生成/参与制作。

甚至大家已经开始默认,效果太好难以分辨的,就是 Flux 做的。

23.png

它由 Stable Diffusion 原班人马打造,发布才 10 天就在网络上掀起轩然大波。

这些精美的假 TED 演讲照片,都是出自它手。

24.png

还有人用 Flux 和 Gen-3 一起做出了精美的护肤品广告。

25.gif

以及多角度的各种合成效果。

29.gif

它很好解决了 AI 画手、AI 生成图片中文字等问题。

27.png

这直接导致现在人类区分 AI 画图,不能再直接看手和文字了,只能盯着蛛丝马迹猜。

28.png

Flux 应该是在手部、文字等指标上加强了训练。

这也意味着,如果当下的 AI 继续在纹理细节、色彩等方面下功夫训练,等到下一代 AI 画图模型出来时,人类的辨认方法可能又要失效了……

而且 Flux 还是开源、笔记本电脑上可运行的。不少人现在已经在 Forget Midjourney 了。

从 Stable Diffusion 到 Flux,用了 2 年。

从“威尔史密斯吃面条”到“Tedx 演讲者”,用了 1 年。

真不知道以后为了分辨 AI 生成,人类得想出哪些歪招了……

参考链接:

[1]https://x.com/ChuckBaggett/status/1822686462044754160

[2]https://www.reddit.com/r/artificial/comments/1epjlbl/average_looking_people/

[3]https://www.reddit.com/r/ChatGPT/comments/1epeshq/these_are_all_ai/

[4]https://x.com/levelsio/status/1822751995012268062

微信图片_20240802161354.png

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章