今年這波大模型上新速度,已經不像是產品節奏,更像是某種大廠by補貼 AI 促銷季。
從前段時間老馬的的 Grok 4.1 開始,剛剛登頂成爲 SOTA 之後便迅速被 Gemini 3 系列偷家,隨後緊接着,奧特曼誇完 Gemini 3,也有模有樣掏出來 CodeX-5.1-Max 來偷 Gemini 家......

正當所有人都以爲一切要暫時落下帷幕,準備好好消化消化時,Anthropic 深夜又把 Claude Opus 4.5 扔出來,把各位腦瓜子整的嗡嗡的。
Opus 4.5 的宣傳口徑還是那套熟悉的味道:更聰明、更省心、全球數一數二的編程能力。只是這次,它終於把“說自己強”變成了“能拿成績單說話”。
在軟件工程測試 SWE-Bench Verified 裏,它成了第一個跑到 80% 以上的模型。
這個分數高到什麼程度呢?你可以理解爲:如果同一題給一羣工程師做,Opus 4.5 的表現已經能排在前排,而不是靠“死算”湊答案。
![]()
更狠的是 Anthropic 自家的內部考試。
那是他們用來篩性能工程師候選人的高難度題庫。Opus 4.5 直接在兩小時時間限制內捲過了全部人類候選人。
嚴格說,這隻能證明它的技術能力和壓力判斷力強,但看起來也沒什麼必要替人類解釋太多,畢竟成績擺那。
不過 Opus 4.5 的“聰明”並不只在編程。
它在視覺、數學、推理這些方向也同時往上推了一截。甚至開始出現一種奇怪的現象:模型會想出比測試設計者更靈活的解法。
比如 τ²-bench 的航空客服測試裏,規則預期它拒絕乘客改票,因爲基礎經濟艙不給改。Opus 4.5 卻先把艙位升到普通經濟艙,再給改航班。
完全符合政策,也完全沒在測試預設答案裏。這種“跳出答案集”的行爲,既讓人佩服,也會讓安全團隊頭疼。
![]()
這類“聰明過頭”的行爲,會讓人開始懷疑:大模型到底是在提升能力,還是在學着對付測試?未來的評測體系是不是得重新設計?行業裏已經有不少人在討論這一點。
Opus 4.5 另一個變化,是它真的開始變“省”。
Anthropic 做了大量底層改造,讓它能用更少的 tokens 達到同樣效果。
很多任務裏,token 消耗直接砍到原來的三分之一左右。再加上 effort 參數,你甚至能調教模型“別想太多”“別算太久”,讓它按你要求的節奏來。
![]()
這個功能看起來很微小,但會導致一個很大的行業變化:大模型未來可能不是按“大小”來分級,而是按“思考方式”來分流。
你要它深度思考,它就絞盡腦汁;你要它快速應付,它就省着點算(其實之前美團的LongCat 就支持這個)。模型本身不再是鐵板一塊,它會變得像個可以調模式的“虛擬員工”。
再往下看工具鏈。Opus 4.5 這次的更新完全就是“無處不在”路線。
Claude Code 按照慣例也得到了大擴容。
計劃模式能自動生成 plan.md,讓你先確認整個方案再執行,不會像早期那樣直接亂點文件。桌面端也來了,可以開多個會話,讓不同智能體處理不同活兒。
![]()
雲端用戶這次也很舒服。
Chrome 插件打開了 Max 用戶權限,在多個標籤之間跨頁面操作;Excel 也加入測試範圍,能幾千行地跑數據而不會把上下文撐爆。配額也整體放寬,Opus 的限制幾乎等於取消。
整個系統升級裏最值得盯的,是 Anthropic 新加的三件套:Tool Search、Programmatic Tool Calling 和 Tool Use Examples。它們解決的,是此前所有大模型都逃不過的“工具塞爆”問題。
以前你把 GitHub、Slack、Sentry 這些工具一起掛上,什麼都沒幹上下文就佔幾十萬 tokens。方法名一旦相似,模型就容易調錯工具、傳錯參數,像極了一個剛轉崗的新同事。
Tool Search 會動態發現工具,用多少加載多少,把冗餘砍掉八成左右。Programmatic Tool Calling 則讓模型直接在代碼裏用工具,不用每次推理一大段。組合起來,Opus 4.5 在 MCP 測試的命中率從 79.5% 漲到 88.1%。這種幅度在 agent 領域幾乎屬於斷層式提升。

也是在這套升級裏,Opus 4.5 的多智能體能力被拉起來了。
它能穩定管理多個 subagents,做深度研究、資料統合、項目維護這類需要長期協調的任務。內部測試裏,相關評估指標提升接近 15%。
這聽起來很技術,但會帶來一個現實影響:未來的 AI 在大多數場景裏,都會被當成“團隊的一員”,而不是“幫你記個賬”的小助手。模型之間會協作,你在旁邊更像是一個審閱者,而不是操作者。
價格這次也壓得特別狠,估計是 Gemini 還有 Grok 把壓力給到了。
Opus 4.5 的 token 費直接落到百萬 token 5/25 美元,第一次把頂級模型的價位拉到普適範圍。結合 token 減少和 effort 控制,這基本意味着“頂配不再是隻有大公司用得起的東西”。
![]()
但真正值得討論的不是性價比,而是一個越來越明顯的趨勢:大模型們正在形成非常鮮明的“性格差異”。
Opus 這一系越來越偏向系統級操作、編程、結構化推理;Sonnet 反而像是文案生產線的主力,穩、快、便宜。Gemini 3 Pro 則更擅長生成、寫作、視頻相關任務。
GPT-5 系列更像是在複雜邏輯和任務規劃上保持穩定。
模型的“適配性”已經遠大於“能力大小”。未來大家挑模型,大概會更像挑同事:有的適合做工程、有的適合做內容、有的適合做運營。
跑分榜不會消失,但會慢慢變成參考,而不是決勝點。
這其實會引發一個很有意思的問題:
如果模型之間的“性格”越來越明顯,那未來企業會不會出現“多模型團隊”?甚至不同模型之間會不會產生協作風格差異?模型是不是也會出現類似“部門文化”?
你現在看到的 Opus 4.5,也許只是這種趨勢的開端。
我是 CyberImmortal,關注我們,帶你暢遊AI世界!
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
