详解GPT-5.4!全方位升级,就是有亿点贵

大伙儿,如果你现在的桌面跟我一样,为了写行代码得开个 GPT-5.3-Codex,为了查点资料得换成网页搜索,中间还忍不住想切到 Claude 调戏一下…… 这种“精神分裂”式的 AI 体验,可能真的要到头了。

就在刚才(北京时间3.6日3点左右),OpenAI 毫无征兆地甩出了一枚深水炸弹:GPT-5.4 正式发布。

这次的升级逻辑非常简单粗暴——整合,且拒绝平庸。 它把编程、推理、原生计算机操控、网页搜索和百万级别的上下文,全部塞进了一个模型里,而且各项能力指标非但没缩水,反而把前代按在地上摩擦 。

山姆·奥特曼也在 X 上发了条云淡风轻的推文,总结了五个方向:工作更强、搜索更准、原生操控、百万上下文、随时介入 。

说白了,OpenAI 这次是想把咱过去两年用 AI 时最憋屈的几个痛点,一次性给铲平了。

知识工作:十次有八次,AI 比专业人士还稳

以前觉得 AI 只是个嘴强王者,但这次 GPT‑5.4 在 GDPval 基准测试上的表现确实有点狠 。这个基准横跨了美国 GDP 贡献最大的 9 个行业,任务全是职场里真实发生的,比如给投行写财务模型、给医院排急诊班次 。

结果显示,GPT‑5.4 的产出有 83.0% 的比例被行业从业者认为达到或超过了人类水准 。上代 5.2 版本这个数据是 70.9% 。

特别是在财务建模这种脏活累活上,GPT‑5.4 模拟初级分析师的表现直接冲到了 87.3%,比 5.2 版本高了将近 20 个百分点 。连最让人头疼的幻觉问题也收敛了不少,单条陈述的出错概率比 5.2 降低了 33%,完整回复含错率降低了 18% 。

编程:从“写代码”进化到“造系统”

以前写代码,模型写完你得复制出来,自己跑一下,报错了再喂回去。

现在 GPT-5.4 自带了一个 Playwright Interactive 的实验性功能。简单说,就是模型现在能一边写代码,一边自己开个浏览器窗口盯着。它既是程序员,也是测试员。

OpenAI 展示了一个案例:只给了一条轻量提示词,它就写出了一个带游客寻路、排队算法、实时资金统计的模拟游戏。整个过程,从代码构建到多轮自动化测试验证,模型自己全包了 。甚至有博主试完后感叹:“Minecraft 基本上被攻克了,我得找个更难的东西来考它。” 

如果你是重度开发者,开启 Codex /fast 模式后,Token 生成速度还能再快 1.5 倍 。这种流畅感,谁用谁知道。

原生计算机操控:它真的会自己动

这是本次发布最硬核的部分。以前 AI 操控电脑像是在“隔空指挥”,现在 GPT-5.4 进化到了“原生内置” 。

在 OSWorld-Verified 基准测试里,GPT-5.4 的桌面导航成功率达到了 75.0%,而人类的平均基线也就 72.4% 。没错,在这个领域,AI 已经正式完成了对人类的超越。

现实里的表现更狠:有一家叫 Mainstay 的公司,用它去三万个税务网站自动填表,三次以内的成功率是 100% 。这背后靠的是视觉感知能力的史诗级加强,它现在能最高支持 1024 万像素的超清图像输入 。界面上再小的按钮,在它眼里也跟路标一样清晰。

工具调用与网页搜索:不再为“说明书”浪费钱

以前折腾 AI Agent 的哥们儿肯定深有体会,如果你挂了几十个 MCP 工具,每次对话前模型都得强行读一遍所有工具的说明书。不管这次用不用得上,Token 已经实打实地花出去了。

GPT‑5.4 换了个聪明思路,引入了 工具搜索机制。简单说,模型现在先看一眼工具清单,只有当它真的需要用某个工具时,才会去把那个工具的详细说明取过来 。

在 250 项任务的实测中,即使开启 36 个服务器,这套机制在精度一点没掉的前提下,把总 Token 消耗直接砍掉了 47% 。这省下来的可都是真金白银。

网页搜索这一块儿也没落下。GPT‑5.4 在 BrowseComp 基准上拿到了 82.7% 的分数,Pro 版更是冲到了 89.3%,创下了业界最高分 。用 Zapier CEO 的话来说,这模型的持续性极强,它会在其他模型放弃的地方继续挖下去 。


百万上下文:是神药也是试验品

GPT-5.4 这次把上下文拉到了 100 万 Token 。理论上,你能把一整个项目的文档全塞进去对话。

但大伙儿先别急着狂欢,飞碟AI得给你们泼盆冷水。测试显示,最稳定的区间依然是 128K 到 272K 之间 。一旦超过这个量,准确率就会像过山车一样下滑,512K 到 1M 区间的得分只有 36.6% 。

而且这玩意儿不仅容易记错,还贵。超过 272K 的请求,按两倍用量计费 。如果你不是真的要让它读一整本《大英百科全书》,建议还是省着点用。

悬在头顶的“思考成本”

最后,咱得聊聊那个让人又爱又恨的“过度思考”。

GPT-5.4 Pro 的推理能力确实恐怖,甚至能解出人类数学家需要几周才能搞定的 FrontierMath 难题 。但也正因为它太想表现了,有时候会闹出笑话。

Hyperbolic 的创始人就吐槽说,他只是跟 GPT-5.4 Pro 说了句“Hi”,结果这模型就开始疯狂推理,直接烧掉了 80 美元 。

所以大伙儿记住了,Pro 版的“重火力”是留给硬核任务的。日常问个天气、打个招呼,标准版(输入 2.5 美元/百万 Token)真的够用了 。

最后

过去两年,我们一直在讨论 AI 有多聪明,但这种聪明大多停留在“纸上谈兵”。而 GPT-5.4 的出现,标志着 AI 正在从一个“问答机器”变成一个“执行官”。它不再只是告诉你怎么做,而是直接替你把事情办了。这个闭环一旦完成,很多行业的玩法真的要重写了。

那么问题来了,面对这个能自己操作电脑、胜率压过专业人士的 GPT-5.4,你最想让它帮你分担哪项“带薪摸鱼”的任务?

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com