OpenAI 和 Anthropic 同时王炸更新,能力翻倍,不仅代码!

凌晨,Anthropic 丢出重磅更新,跟本公众号昨天发布的爆料不一样,本以为是发布的Claude 5.0,但是这次版本号是4.6,还没来得及欢呼,紧接着OpenAI 的Codex也发布新版本 GPT-5.3-Codex。

如果说昨晚之前,我们在讨论 Prompt Engineering(提示词工程)还能活多久,那么今天过后,这个职业已经正式进了ICU。

Sam Altman 昨天刚在 X 平台上凡尔赛完 Codex 的“百万活跃用户”,今天就用 GPT-5.3-Codex 告诉世界:AI 进化的闭环已经完成。而大洋彼岸的 Anthropic 则用 Claude Opus 4.6 证明:比手速我可能输,但比脑子,你们都是弟弟。

本号带大家,都来过一遍

01

OpenAI 的阳谋:从“副驾驶”篡位到“老司机”

OpenAI 的技术文档里藏着一句极具分量的话:“这是我们第一个在创造自己的过程中,发挥了关键作用的模型。”

翻译一下:GPT-5.3-Codex 参与了 GPT-5.3-Codex 的代码编写、数据清洗和架构优化。 不是套娃,这是递归进化。

这种进化直接体现在了恐怖的“行动力”上。还记得那个模拟人类操作电脑的 OSWorld-Verified 基准测试吗?前代模型 38.2% 的准确率连及格线都够不上,像是刚学电脑的老大爷。但这次,GPT-5.3-Codex 直接跳涨到了 64.7%。

这意味着,AI 距离像你一样熟练地甩鼠标、切屏、操作 ERP 系统,只剩下一层窗户纸。在 Terminal-Bench 2.0(命令行操作)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)远远甩在身后。

更有趣的是,OpenAI 引入了一项名为 “Ghost Cursor”(幽灵光标) 的新技术。在演示视频中,你只需要告诉它“帮我把上个月的财报数据填进 SAP 系统”,你就能看着鼠标自己在屏幕上飞舞,点击、输入、甚至处理弹窗报错。

OpenAI 的野心已经写在脸上了:微软常说 AI 是 Copilot(副驾驶),但现在 AI 想做那个能掌控方向盘、甚至能自己修车的司机。

值得一提的是,OpenAI 这次罕见地“认怂”了硬件依赖。官方博客特地强调:整个模型的训练和推理优化,完全基于 NVIDIA GB200 NVL72 集群完成。这一波高情商的“感谢英伟达”,不仅给足了黄仁勋面子,也侧面印证了 GPT-5.3 对显存带宽的吞噬能力——毕竟要实时理解 4K 分辨率的屏幕流,普通芯片根本扛不住。

02

Claude 的反击:告别“金鱼记忆”,构建“蜂群思维”

相比于 OpenAI 在手速上的激进,Anthropic 发布的 Claude Opus 4.6 则是在“脑力”和“耐力”上死磕。

很多企业用户都有一个痛点叫 Context Rot(上下文腐蚀):号称 200k 上下文,但塞进去的数据一多,AI 就开始顾头不顾尾。

这次,Claude Opus 4.6 拿出的数据简直是降维打击。 

在 MRCR v2(长文本大海捞针) 测试中,Claude Opus 4.6 的召回率高达 76%。作为对比,上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。这得益于他们新研发的 “Dynamic Attention Sinks”(动态注意力汇聚) 技术,让模型在处理长达 1M 的 Token 时,依然能像雷达一样锁定细节。

但真正让开发者头皮发麻的,是 Anthropic 推出的实验性功能:Agent Teams(智能体战队)。

在新的 Claude Code 环境中,你不再是和一个 AI 对话,而是指挥一个团队:

Team Lead(组长): 负责拆解任务、分配工单、Code Review。

Specialists(专家): 独立的 Session,有的负责前端,有的负责数据库,有的负责写测试用例。

Parallel Execution(并行赛马): 遇到顽固 Bug?你可以一键生成 5 个 Agent,分别验证 5 种不同的假设,最后只汇报成功的那一个。

为了展示极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂实验:他没有写一行代码,而是扔了 2 万美元 的 API 额度,让 16 个 Claude Opus 4.6 组成一个“全自动软件开发团队”。

结果?短短两周内,这群 AI 自主进行了 2000 多个编程会话,从零手写了一个 10 万行代码的 Rust 编译器,甚至成功编译了 Linux 6.9 内核。

03

天才疯子 vs 靠谱老牛

知名 AI 评测人第一时间的“盲测”(Vibe Check)评价非常精准:

Claude Opus 4.6 是“高上限,高方差”(High Ceiling, High Variance)。 它像是一个才华横溢但偶尔跳脱的天才。在 GDPval-AA(高价值金融分析)测试中,它的 Elo 得分比业界第二高出整整 144 分。如果你需要突破性的灵感、复杂的法律文书分析,或者设计一套全新的系统架构,选它。

GPT-5.3-Codex 则是“高可靠,低方差”(High Reliability, Low Variance)。 它像是一个经验丰富、绝不掉链子的资深工程师。在 SWE-Bench Pro(真实工程难题)中,它展现了 SOTA 水准,而且极其抗干扰。如果你需要修 Bug、写脚本、或者让它在半夜三点帮你把服务器重启并恢复数据,它是最让人安心的选择。

03

尾声:2026 年的新职场

OpenAI 和 Anthropic 的这次“撞车”发布,其实是在向所有打工人传递同一个信号:Prompt Engineering 已死,Agent Management 当立。

当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐海量文档并精准定位细节时,我们不再需要像教小学生一样,把指令拆解得碎碎念。

相反,我们需要做的,是学会如何以管理者的身份,去定义目标(OKR)、审核结果(Code Review)、以及决定在什么时候,把什么任务交给哪位 AI 员工。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com