
早上一觉睡醒,手机上全是同一个消息:
Claude Opus 4.8,上线。

怎么又来?
如果你这几个月一直在跟 Claude 打交道,会明显感觉到,它的迭代节奏越来越快了,上一代还没用多久,下一代就端出来了。

以前大模型发布还有点逢年过节的仪式感,现在更像是凌晨后厨突然掀开帘子,说新菜好了。
这次 Anthropic 也没有大吹特吹自己的 4.8 有多强多强,从官方的公告来看整体措辞挺克制,说它是在 Opus 4.7 基础上的升级,API 名称是 claude-opus-4-8。

不过值得注意的是这代价格和之前的 4.7相比倒是没变化,还是百万输入 5 美元,百万输出 25 美元。
跑分上,SWE-Bench Pro 从上代的 64.3% 到 69.2%,Agent terminal coding 从上代的 66.1% 大幅提升至 74.6%,不过任然略逊于 GPT-5.5 的78.2% 。

这类数字我现在其实有点免疫,但至少说明,Anthropic 这次的优化重心还是代码和 Agent 任务。
至于 Terminal coding 没打过 GPT-5.5 我倒是有点意外的,毕竟在个人心里 Opus 可是 Anthropic 面向公众的最强 coding 模型,没能打过还是有点遗憾。
(不过最近再用 GPT-5.5 疯狂conding,5.5确实好用)
Opus4.8 目前我们还未测试,不过根据现有的情况看,这次 4.8 更新的一大亮点是 honesty(诚实性),也就是模型别那么爱装懂。

在此之前,你用 Claude,甚至是任何AI来帮你处理一些事情,特别是 coding,经常会遇到一种情况——它改完文件,特别自信地说搞定了,你自己一跑,发现炸了。
再问,它说问题找到了,然后 I fix it,再跑,还炸。

(Claude/GPT:改没改好我不知道,但我拍着胸脯的样子真的很自信)
Opus 4.8 这次官方说得很直白,它更愿意暴露不确定性,更少做缺乏支撑的判断。
在内部评估里,它让自己写出的代码缺陷蒙混过关的概率,大概只有前代的四分之一,这个方向我很是认可,用AI干过活的都知道,不怕AI不会,就怕AI太自信乱搞,Agent 真要进工作流,第一优先级是知道何时刹车。

对了,这次更新还有 dynamic workflows(动态工作流),这个功能可以让 Claude 自己拆任务、写编排脚本、拉起几十个甚至上百个 subagents 并行干活,最后自己验一遍再汇报,结合刚才的 honesty,dynamic workflows 是一件事的两面,前者少吹牛,后者多干活。

以及 effort control。
这项功能可以让你在 claude.ai 网页版和 Cowork 里可以调 Claude 在一次任务里用多大力,默认 high,Claude Code 里还能选 extra,对应 xhigh,财大气粗也可以选 max,Fast Mode 速度大概 2.5 倍,价格降到百万输入 10 美元、百万输出 50 美元。
还有一个有意思的,据社区消息,“由于 Claude 蒸馏了一堆开源模型”,导致有人问 Opus 4.8 你是谁,结果它一会儿说自己像 Qwen,一会儿又冒出 DeepSeek。

这就很有嘲讽意味了,几个月前你 A\ 还说国内 AI 蒸馏 Claude,结果后脚你家 Claude 自己张口是千问、闭口是 DeepSeek。
所以,综上,我对 Opus 4.8 的判断其实挺简单,即它不是神仙下凡,但这次它修到了关键处——代码能力更稳,长任务更适合,少一点拍胸脯,多一点不确定性。
这对真正把 AI 放进生产环境的人,比多会写几句漂亮话重要。
但说真的,一觉醒来看到这个更新,我觉得还是不错的。
(不过实测我这边Claude Max直登的Claude Code还没4.8的选项)

更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
