生成3D手办还能互动！谷歌新模型太炸裂了：这是PS终结者？

HelloKitty • 2025-09-01 14:40

扫一扫在手机阅读、分享本文

9049

本文由智能Pro 撰写/授权提供，转载请注明原出处。

以下文章来源于：智能Pro

作者：三明治

最近两周，“手办化”突然就火了。

事情是这样的，大约在两周之前，大模型竞技场 LMArena 上架了一个只闻其名，不见其身的神秘模型——“nano banana”，按照官方说法，这是一个顶尖的图像生成与编辑模型，能实现前所未有的创作控制力。

结果呢？整个互联网的 AIGC 玩家，都在用它变身“手办大师”。

不开玩笑，小雷是真被这玩意给刷屏了，这两天一打开群聊，就能看到无法无天的群友们在拿这玩意疯狂整活，有把自己头像做成限量版 GK 模型的，有把自家猫狗“手办化”的，甚至还有给刚发布的《黑神话：钟馗》弄雕像和游戏盒的，推特上的国外网友玩得更是乐此不疲，看得我都有点心痒痒的。

幸好，这次我们不用眼巴巴地羡慕了。

（图源：LMArena）

随着 Google 的正式发布，如今 Gemini 2.5 Flash Image 已经通过 Gemini API 和 Google AI Studio 向公众开放预览，用户只需访问官网，就能直接体验到下一代图像模型的威力。

最重要的是，这玩意在 AI Studio 里进行测试是完全免费的，对于我们这种热爱尝鲜的玩家来说，简直是把探索未来的门槛给直接铲平了。

话不说多，我们这边直接开整！

Gemini 2.5 Flash Image

让人人成手办大师

想体验这个功能的话，其实还蛮简单的就是了。

打开 Google AI Studio 网页版，在 Generate media 选项卡下就能找到 Gemini 2.5 Flash Image。界面非常直观，一个提示词输入框，一个上传图片的区域，这就是通往新世界的大门。

要做的事情很简单，上传一张图片，然后用自然语言告诉它我们想要生成的内容就像。

（图源：Gemini）

话不多说，先来看图。

首先，我们准备一张自己想要进行“手办化”的图片，可以是动漫，也可以是真人，甚至不必是全身照，比如这张来自漫画《捉摸不透的刑警织子桑》里的有阿谷織子的单人图就很不错。

接下来，输入提示词：

Please turn this screenshot of the character into a kotobukiya figure. Behind it, place a toy box printed with the character's image. Next to it, add a computer with its screen displaying the design, complete with the the character. In front of the box, add a round plastic base for the figure and have it stand on it. The PVC material of the base should have a crystal-clear, translucent texture, and set the entire scene indoors.

最终成品如下：

（图源：雷科技自制）

不得不说，Gemini 对“手办质感”的理解已经超出了我的预期。

这张图的生成效果达到了以假乱真的水准，无论是手办本身的材质（蕾丝、皮革、肌肤）、包装盒上的文字和品牌Logo，还是背景电脑屏幕上复杂的建模界面都很不错，只有高度模糊的背景能看出些端倪。

再来些热门的，比如说《黑神话：钟馗》：

（图源：雷科技自制）

接着试一下大家都关心的名人，比如说马斯克：

（图源：雷科技自制）

从结果来看，转换效果可以说是几无失手，非常成熟。

如果你想玩点更高级的，我们把这张生成的图片，扔进同样是豆包视频生成中，用提示词“画面外的人从两边伸出亚洲人的双手，拿起手办把玩并展示桌上手办的视频”，生成一段把玩手办的视频。

（图源：雷科技自制）

如果用提示词“360 度缓慢旋转这个手办，转台拍摄”，就能生成一段平滑的环绕展示视频。

（图源：雷科技自制）

最后还可以用 Meshy 或者腾讯混元 3D，将手办 3D 建模化，我们就能得到一个可以自由旋转、缩放的 3D 模型。

屏幕截图 2025-08-28 171431.png （图源：雷科技自制）

虽说后两步借助了其他工具，但由 Gemini 2.5 Flash Image 产出的高质量初始素材，是整个工作流成功的基石。这种打破次元壁的做法，让每个人都能低成本地实现从一个想法到3D产品的完整流程，在过去是很难想象的。

修图能力更强了，

其实是终极版 PS？

不过，人人都在玩手办化，是不是有点大材小用了？

我们不妨转换一下思路，把它当成终极版的 PS 来用？

举个例子吧，比如说那些珍贵的、但因年代久远而模糊破损的老照片，它能不能修复呢？

我上传了一张黑白老照片，照片上有划痕和噪点，清晰度也很低。

（图源：X）

接下来，输入提示词：

Restore this old photo, remove scratches and noise, increase the resolution, and colorize it realistically.

Generated Image August 28, 2025 - 5_22PM.jpeg

（图源：Gemini）

答案是，“完全可以，而且效果惊人”。

可以看到，Gemini 2.5 Flash Image 不仅清除了物理损伤，还通过算法补全了缺失的细节，面部的纹理和眼神光都得到了合乎逻辑的重现。上色的效果也偏近自然，没有出现早期 AI 上色那种“塑料感”，充满了温暖的时代气息。

再试试设计行业里源远流长的梗，“把白天改成黑夜”这种要求，它能不能实现呢？

（图源：雷科技）

提示词：

Change the scene to night time, turn on the streetlights and the lights inside the buildings, make it look like it's raining slightly.

Generated Image August 28, 2025 - 5_29PM.jpeg （图源：Gemini）

只能说，Gemini 2.5 Flash Image 在语义理解和光影重构这块，已经达到了很出彩的水平。它不仅仅是简单地调暗画面，而是真正理解了“夜晚”、“灯光”、“下雨”这些概念，并合乎物理逻辑地对整个画面进行了重新渲染。

最后，我也试了一下它的风格切换能力。这次就拿《Panty&Stocking》里的画面做例子：

（图源：X）

提示词：

Convert this scene into a photorealistic movie still from a 1990s live-action film, directed by Wong Kar-wai.

（图源：Gemini）

很有意思，它不仅做到了“三次元化”，还微妙地捕捉到了王家卫电影那种独特的色彩、光影和氛围感。

这种跨越媒介和导演风格的无缝切换，为艺术创作提供了更多可能。

不算完美，

却堪称图片 AIGC 新标杆

不可否认，Gemini 2.5 Flash Image 的发布，标志着 AI 在图像生成领域实现了重大突破。

就像我展示的那样，曾经需要专业人士花费数小时在 PS 里用蒙版、图层、笔刷精雕细琢的工作，如今只需一句自然语言就能瞬间完成，甚至修图效果比我这种半吊子还要好上不少，属实有点惭愧。

目前该模型在预览阶段，并非完美无瑕。

在处理极其复杂的、包含大量人物的场景时，Gemini 偶尔还是会出现轻微的逻辑错误或细节失真。对于一些过于抽象或违反物理常识的指令，它的理解能力也还有提升空间。

不管怎么说，Gemini 2.5 Flash Image 算是为 AI 图片生成应用树立了一个新的标杆。

可以预见的是，随着技术的不断成熟和成本的降低，未来手机、电脑的相册和编辑器都可能会原生集成这项功能，就像 AI 消除、AI 扩图那样走进寻常百姓家。无论是专业设计师还是普通用户，每个人都有机会轻松上手，将自己脑海中的创意和对美的理解，更直观、更高效地展现出来。

修图有手就行？或许真的不是梦。

微信图片_2025-06-24_142932_329.png

微信图片_20230104175528.jpg

扫码关注公众号

获取更多技术资讯

上一篇：人形机器人市场，电池厂商看不上

下一篇：吴泳铭的阿里新局：押注 AI 与消费，再次创业

精选活动更多 >

{{ val.province ? (val.province + ' ' + val.city) : val.location }}

生成3D手办还能互动！谷歌新模型太炸裂了：这是PS终结者？

{{ val.activity_name }}

火山引擎就是要制造一个一个又一个 Seedance 2.0 时刻

在数十亿个Agent运行之前，亚马逊先让Agent学会了管库存和招人

微信推了 AI 助手「小微」，它会成为 AI 大模型的战场吗？

机器人融资暴增，但没一分钱投给“普通人”

智谱破万亿，中国大模型终结「平替」叙事

豆包灰测打车背后：要做超级入口，加速商业化进程？

输入法成AI新风口！微信/豆包/千问聚齐，用嘴打字时代来临

市场份额从41%掉到26%，Cursor凭什么还值600亿？

微信撞上支付宝

AI 巨头的「Token 补贴大战」，快打完了吗？

火山引擎就是要制造一个一个又一个 Seedance 2.0 时刻

AI支付宝上桌，微信慌了吗？

1万亿智谱，谁赚走了最多的钱？

3年5亿MAU，Meta悄悄养出一个社交爆款

在数十亿个Agent运行之前，亚马逊先让Agent学会了管库存和招人

剪映和即梦，争抢 Seedance

什么！ChatGPT也要刷脸实名认证了？

突发！Anthropic即将启用实名制刷脸

估值逼近快手，可灵分拆是一步好棋吗？

快手拆了可灵，字节拆豆包还会远么

腾讯AI秘密“换船”：元宝失宠，WorkBuddy接棒

运营商卖Token，AI行业进入全面收割期？

一边裁员承压，一边半年狂赚数亿，AI短剧到底谁在赚钱？

小米MiMo要蹭着DeepSeek蹦上牌桌