正在灰度测试的GPT-Image-2,又一次突破了生图模型的极限。

正在灰度测试的GPT-Image-2,又一次突破了生图模型的极限。

GPT-Image-2不一样。

你可以让它直接出一张海报,有密集的英文正文、副标题、大小写混排、标点全都在该在的地方。它不是在「模仿」文字的形状,它是真的知道这些字是什么意思,然后决定怎么排。

这里引用歸藏(guizang.ai)老师在X发布的他的AI产品CodePilot的宣传图。

而我让他生成了一张「GPT-Image-2在X上的用户评价」,90%以上的评价文字,头像、UI排版,全部都很和谐。并且评论内容是连贯正常的。

以前做这种东西,要么你得后期用PS手动贴字,要么你接受那个「AI出火星文」的视觉风险。

现在不需要了。

顺着这个继续说,它的「世界知识」也是让我比较意外的部分。

以前用生图模型做复杂场景,比如UI界面、医疗信息图表,模型经常会开始「发明创造」,出现不存在的结构,把遮挡关系搞反,把逻辑层次混在一起。

GPT-Image-2好像真的「懂」这些东西是怎么运作的。它不只是在拼贴素材,它有一个关于这个世界的基础认知,然后在这个认知上面生成内容。

比如用很简短的提示词“山姆奥特曼在抖音直播间带货OpenAI”

它就能生成与真实直播间完全一致的“手机截图”,弹幕、UI布局,甚至是“小黄车”商品都是那么的合理。

再说真实感。

有一说一,我对「AI图片以假乱真」这类说法已经有点免疫了,因为总会有一些破绽,总会有一些AI特有的滤镜,但目前我让GPT-Image-2生成的一些真实图片,确实让我难辨真假。

这张试卷、手机截图,我认为真的已经能达到以假乱真的效果了。
不得不让我感叹,AI造假的成本已经越来越低了。

最后聊聊设计这块,这个是我个人觉得最「实用」的地方。

文字准确 + 空间排版能力强,组合在一起意味着什么,你想想看,它可以直接生成可用的App UI界面,网页排版。

甚至,有人拿它生成了一张YouTube网站的截图,如果我不告诉你他是AI生成,我相信90%的人都看不出来。

这对设计师、产品经理或者做内容的人来说,是真的会改变工作流的东西。

不是「哇好厉害」那种观赏感,是「我可以用这个做实际工作」的那种实用感。

当然,正式版还没出来,现在说改变工作流还为时过早。

最终正式版是否会因为法规限制、算力限制等各式各样的问题导致降智,还是个未知数。

而且谷歌的Nanobanana也很久没有新模型推出了(NanoBanana2不算,感觉像是Pro的蒸馏版本)。

所以,等正式版出来,我们再好好聊聊。

以上,既然看到这里了,如果觉得不错,随手点个赞、充电、转发三连吧。

谢谢你看我的文章,我们,下次再见。

最后放一些GPT-Image-2跑出来的AI图~

原文链接:https://www.he6.net/8708.html,转载请注明出处。
0
没有账号?注册  忘记密码?

社交账号快速登录