對標Claude4.7，Cursor 發佈超高性價比模型

今天，Cursor 把 Composer 2.5 放出來了。

我第一眼注意到的是什麼——SWE-Bench Multilingual，79.8%。

和 Anthropic Opus 4.7 持平！

你敢信？

SWE-Bench 是把它丟進真實項目裏修 bug、讀上下文、改文件的測試，所以 79.8% 這個數字真正刺激人的地方，不只是高。

是它高得有點出乎意料。

Cursor 自己對 Composer 2.5 的定位很清晰，即能勝任長時間任務、更能遵循複雜指令、會協作的模型。

這個說法聽着有點產品稿味，但放到 coding agent 裏其實很關鍵，因爲我們現在用 Cursor、Claude Code、Codex，最煩的就是這些模型跑着跑着忘了目標，或者小修一下就端出一整套重構大禮包。

Composer 2.5 這次的改進，就是對着這個痛點來的。

更復雜的 RL 環境，合成任務數據比 Composer 2 多了 25 倍，以及他們還推出了 Targeted RL with Textual Feedback（利用文本反饋進行定向強化學習）。

這個改進你可以把它理解成，老師改卷子，不只是打對錯，還在你錯的地方寫了正確的解題思路，你作爲學生，就問你看了爽不爽？

以前一個 agent 跑幾十萬 token，到頭來任務失敗了，獎勵模型只能說，兄弟你這把不行。

但具體是哪一步不行，是工具調錯了，還是風格跑偏了，它很難知道，Cursor 現在做的是，在出問題的局部上下文裏塞一條短反饋。

這就很像一個資深工程師帶新人。

但說到這裏，還有一點各位要知道：

Composer 2.5 並不是 Cursor 從零煉出來的全新大模型。

它基於月之暗面的 Kimi K2.5 構建，Cursor 在這個底座上做了大量 post-training 和 RL，大約 85% 的計算資源花在自己主導的 RL 和後訓練階段。

這件事比單純吹自研更有意思。

現在做 coding model，不一定要從第一塊磚開始蓋樓，你大可以先拿一個足夠強、商業上能跑通的 base model，再把貼近場景的部分做到極致。

月之暗面提供 Kimi K2.5 這個強基座，Cursor 通過 Fireworks AI 做授權商業合作，然後把自己的產品場景和 RL 訓練能力壓上去。

可以說是集兩家之長。

btw，可能有朋友可能會問，不是 Kimi K2.6 已經出來了，爲什麼 Composer 2.5 不直接用 K2.6？

這個問題答案其實很簡單。

Kimi K2.6 正式發佈於上個月20號（4月20，我們當時還提前一週體驗到了 K2.6），就算 Cursor 比我們還早點，到今天算一算也才一個月多點，那時 Composer 2.5 的訓練大概率已經走到中後段了，你這時候換底座，真不是換個模型名字挪一點文件那麼簡單，大量 post-training 和穩定性驗證都要重跑。