GPT-Image-1.5:有进步,但文字还是依托答辩

还记得几个月前,当咕噜咕噜的香蕉模型及其Pro系列横空出世时,整个 AI 圈子是个什么反应吗?


先不说咕噜咕噜那边有多火爆,OpenAI 这边的流量反正是低了不少,要不是还有个 Sora2 (文-图生视频模型)撑场子,否则大家还真以为 OpenAI 要 Close大吉了。


那时候的 Sora (注意我说的是生成图像的Sora)在图像生成方面虽然还能打,但在生成速度、尤其是那令人抓狂的不可控性面前,确实显得有点老态龙钟。


特别是商业落地方面,Sora 和 DALL (opai的另一个生图模型)系列则更是被咕噜咕噜的香蕉系列打得满地找牙。

但在沉寂了这么久之后,OpenAI 昨天夜里终于搞了点大动作。


直接发布 GPT-Image-1.5,并且立刻在 ChatGPT 里全量推送。


我看了一圈官方的技术文档和演示案例,脑子里只有一个想法:这哪是发布新模型,这分明是 OpenAI 被谷歌逼急了,直接把压箱底的核武器给搬出来了。

这次更新最核心的关键词,其实就两个字:听话。

以前我们用 Sora(或者说很多的一些生图模型) 的 AI 生图,本质上是在玩“抽卡游戏”。


你输入一段咒语,AI 给你吐出来几张图,好不好看能不能用全看运气。


如果你觉得其中一张图构图不错,但想把主角穿的红衣服换成蓝衣服,在过去的曾经,这几乎是个不可能完成的任务,不过随着模型一代又一代的进步,这个问题正在逐渐被解决,不过各家水平也是参差不齐。


因为一旦你修改提示词重新生成,AI 会重新计算整个画面,光影、姿态、背景细节等这些要素中至少有一项很有可能会发生变化,前一秒还是写实风,后一秒可能就变成了油画风。


但 GPT-Image-1.5 这次带来的“精确编辑”功能,终结了opai家的“抽卡时代”。


咱们来看官方的演示案例。

这组图简直是把“可控性”这三个字写在了脸上。


以前的模型不懂什么是“局部”,它只知道“重画”,一旦重画,便几乎可预知的是一场灾难。


但 GPT-Image-1.5 居然这次真的做到了,它像是一个精通图层的顶级修图师,精准地锁定了画面中的特定像素区域进行重绘,同时完美地保留了原本的光影逻辑。当那只狗从真狗变成毛绒玩具时,它脚下的阴影、身上的反光,竟然还能跟周围那个真实的写实环境完美融合。


这就非常有意思了。


这意味着 ChatGPT 里的图片不再是一次性的“快餐”,而变得可以反复打磨、修改。


你可以先生成一个满意的构图,然后像甲方指点江山一样,指着画面说:这里给我加一堆乱跑的孩子,那里给我换成电影海报的字体,主角的衣服给我换成 OpenAI 的文化衫。


模型不仅能听懂,而且执行得严丝合缝。


这就引出了这次更新的另一个大杀器:文字渲染能力。


在很长一段时间里,让 AI 画图里带字,简直就是灾难现场。它生成的文字通常是乱码,或者看起来像火星文。


但这次 OpenAI 展示了一个极其硬核的案例:让 AI 生成一张竖构图的报纸,并且要把一段复杂的 Markdown 格式文本,以自然的报纸排版填进去。结果怎么样?它不仅把文字一个不错地写了上去,甚至还处理好了标题的字号、正文的缩进,以及报纸特有的那种陈旧纸张质感。

但在吹了这么多之后,咱们还是得回到现实。官方的演示视频向来都是“卖家秀”,实际到手到底几斤几两,还得咱们实测了才算数。

于是我们上手试了试。

我们测试了之前一次写关于饿了么的文章的配图生成👇。

一言难尽啊,文字方面几乎是不可用的......


香蕉Pro生成的👇

这就很有意思了。


既然它在海报排版上还是个“偏科生”,OpenAI 为什么还要这么急吼吼地把 GPT-Image-1.5 掏出来?甚至为了它,把生成速度硬生生提了 4 倍 ?


这背后的商业野心和焦虑,隔着屏幕都能闻得到。


之前咕噜咕噜的香蕉之所以能抢占市场,靠的就是更强的编辑灵活性和更低的试错成本。


OpenAI 这次不仅把性能提上来了,还反手打了一张价格牌:API 价格直接降了 20%。这明显就是冲着开发者去的,尤其是那些做电商海报、做自动化设计的公司。


这对于像 Adobe 这样的传统软件巨头,或者靠卖素材过日子的图库网站来说,无疑是一次不小的打击。


当修改图片不再需要套索工具、不再需要蒙版,甚至不再需要理解什么是图层,只需要一句人话的时候,图形设计的门槛就被彻底踏平了。


不过,这里面也有个细思极恐的细节。


当 AI 开始能够完美地“局部篡改”现实,且不留痕迹时,我们眼见为实的底线又被拉低了一寸。


以前的 AI 假图因为细节崩坏还容易辨认,现在的 1.5 版本,能让你在保持环境光影绝对真实的前提下,凭空让一个人从照片里消失,或者给一个人穿上他从未穿过的衣服,亦或者学会了“模拟真实缺陷”,让你难以分辨。

这种级别的“真实感欺骗”,在社交媒体引发的混乱,早就开始了,而GPT-Image-1.5 的入局,恐怕会让本就混乱的情况再添一把火。


最后,咱们来做个总结。


对于咱们普通用户来说,GPT-Image-1.5 的出现无疑是个好消息。这意味着你口袋里从此多了一个随叫随到、还听得懂人话的顶级修图师 。


但对于那些还在靠“抠图”、“换底”、“去水印”赚辛苦钱的基础美工来说,寒冬可能真的要来了。


还没有失业的产品图文字海报图等设计师也别急着笑,等能几乎完美处理文字且兼顾艺术性的模型出来,恐怕饭碗也难受保障了。

这技术进步的每一步,都在残酷地挤压着传统重复性技能的生存空间。


我们唯一能做的,似乎只有哪怕是被动地,也得学会如何更好地向这些机器发号施令。


毕竟,那个只会瞎画的傻 AI 已经毕业了,现在站在你面前的,是一个精明、高效、廉价,而且还不知疲倦的超级乙方。



我是 CyberImmortal,关注我们,带你畅游AI世界!


更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com