在2026年这个AI图像生成技术全面爆发的节点上,OpenAI于4月21日正式发布了GPT Image 2,以惊人的速度在12小时内登顶权威盲测排行榜LMArena Image榜首,领先此前的王者——Google旗下的Nano Banana Pro达152分之多,堪称“跨代级别的质变”。与此同时,Google于2025年11月推出Nano Banana Pro(基于Gemini 3 Pro构建),在文字渲染、多图一致性和4K分辨率上同样展现出惊人实力。
作为本就在偶尔使用两者网页版各种功能辅助创作的我来说自然忍不住拿他们俩比较了起来,于是就有了这篇文章。
一、透明底与格式支持:GPT的工业化输出优势
对于游戏素材而言,“透明底PNG”几乎是一项刚需。无论是角色立绘、UI组件还是道具图标,能够直接生成带Alpha通道的素材,意味着可以省去在Photoshop中逐个抠图的重复劳动。
在本次测试中,GPT Image 2在“透明底”这一环节展现出了明显的优势。得益于GPT Image 2的API原生架构,该模型支持直接通过指令生成透明背景的PNG格式图片——你只需在提示词中明确要求“生成透明背景的PNG”,模型便会输出带有Alpha通道的图片。这是一项具有实质性工业价值的进步:相比之下,上一代DALL·E 3完全不支持透明背景,而GPT Image 2在这方面的支持是完整且确定的。
而在Gemini侧,尽管Nano Banana Pro也能支持PNG格式输出,但在网页版的用户界面上,要求其生成带透明通道的切图素材时,似乎并不能很好地提供给我透明的图片。如果你是一位UI/UX设计师,追求一键生成可直接导入游戏引擎的PNG资源包,GPT Image 2是当前更可靠的选择。
![]()
Gemini生成的Gemini Prompt,大失败
![]()
GPT生成的Gemini Prompt,可用
![]()
gemini生成的GPT Prompt,还得抠
![]()
GPT生成的GPT Prompt,较符合大众直觉
结语:虽有优劣体现,仍需按需选型
综合来看,AI图像生成还完全没有到“一家独大”的程度,虽然GPT IMAGE2综合来看生成效果领先,但是仍然有就是做不好的事,而Gemini虽然相对落后,但由于生成效果意外地安定,在不少时候能作为GPT使用时候的补充,无论如何,用AI补充游戏制作的生产力,抹平一些经费上的不足,一定能为创作者带来相当大的帮助,也希望创作者们与玩家都能相对客观地看待AI的存在,工业管线的前进就像是大运,我们没法正面挡住,但是反过来,如果能搭上顺风车,就能最大限度跟上时代,AI仍在进步,停止学习或者闭门造车都是不可取的。
希望大家都能做出更符合自己心意的作品、玩到自己心仪的游戏。
最后放一下广告,我们制作组正在创作的作品之一,一款赛博朋克主题的简易CRPG,高中二度,主创放飞自我之作。
