正在灰度测试的GPT-Image-2，又一次突破了生图模型的极限。

GPT-Image-2不一样。

你可以让它直接出一张海报，有密集的英文正文、副标题、大小写混排、标点全都在该在的地方。它不是在「模仿」文字的形状，它是真的知道这些字是什么意思，然后决定怎么排。

这里引用歸藏(guizang.ai)老师在X发布的他的AI产品CodePilot的宣传图。

而我让他生成了一张「GPT-Image-2在X上的用户评价」，90%以上的评价文字，头像、UI排版，全部都很和谐。并且评论内容是连贯正常的。

以前做这种东西，要么你得后期用PS手动贴字，要么你接受那个「AI出火星文」的视觉风险。

现在不需要了。

顺着这个继续说，它的「世界知识」也是让我比较意外的部分。

以前用生图模型做复杂场景，比如UI界面、医疗信息图表，模型经常会开始「发明创造」，出现不存在的结构，把遮挡关系搞反，把逻辑层次混在一起。

GPT-Image-2好像真的「懂」这些东西是怎么运作的。它不只是在拼贴素材，它有一个关于这个世界的基础认知，然后在这个认知上面生成内容。

比如用很简短的提示词“山姆奥特曼在抖音直播间带货OpenAI”

它就能生成与真实直播间完全一致的“手机截图”,弹幕、UI布局，甚至是“小黄车”商品都是那么的合理。

再说真实感。

有一说一，我对「AI图片以假乱真」这类说法已经有点免疫了，因为总会有一些破绽，总会有一些AI特有的滤镜，但目前我让GPT-Image-2生成的一些真实图片，确实让我难辨真假。

这张试卷、手机截图，我认为真的已经能达到以假乱真的效果了。
不得不让我感叹，AI造假的成本已经越来越低了。

最后聊聊设计这块，这个是我个人觉得最「实用」的地方。

文字准确 + 空间排版能力强，组合在一起意味着什么，你想想看，它可以直接生成可用的App UI界面，网页排版。

甚至，有人拿它生成了一张YouTube网站的截图，如果我不告诉你他是AI生成，我相信90%的人都看不出来。

这对设计师、产品经理或者做内容的人来说，是真的会改变工作流的东西。

不是「哇好厉害」那种观赏感，是「我可以用这个做实际工作」的那种实用感。

当然，正式版还没出来，现在说改变工作流还为时过早。

最终正式版是否会因为法规限制、算力限制等各式各样的问题导致降智，还是个未知数。

而且谷歌的Nanobanana也很久没有新模型推出了（NanoBanana2不算，感觉像是Pro的蒸馏版本）。

所以，等正式版出来，我们再好好聊聊。

以上，既然看到这里了，如果觉得不错，随手点个赞、充电、转发三连吧。

谢谢你看我的文章，我们，下次再见。

最后放一些GPT-Image-2跑出来的AI图～

原文链接：https://www.he6.net/8708.html，转载请注明出处。

社交账号快速登录