長任務Agent的本土王者，GLM-5.1開源！

很多開發者做Agent項目時，最痛苦的一件事就是模型“越跑越蠢”。

前面幾十輪還挺聰明，工具調用也算穩。

跑上個幾十上百輪以後，模型就開始胡說八道、重複錯誤、直接擺爛。

上下文再長一點，性能直接雪崩。

以前大家只能苦笑：大模型天生就這樣，長時序任務就是它的死穴。之前我們還寫過一篇文章來講這個事情 AI 聊兩句就翻車？性能暴跌 39%！別再難爲它了。

但是現在，智譜把這個問題給幹掉了。

4月8日，也就是今天，智譜正式開源GLM-5.1，這是GLM-5系列的升級版，完全MIT協議，權重已經同步上線Hugging Face和ModelScope。

想本地部署？vLLM、SGLang直接拉取就行，商用也完全沒限制。

官方給它的定位非常明確：專爲長時序Agentic任務設計。

這話不是隨便說的。

GLM-5.1能在600多輪迭代、6000多次工具調用裏持續優化，幾乎不出現性能平臺期。

同時，在複雜編程、智能體工程、網絡安全、工具調用等這些場景，它的表現直接拉到新高度。

基準數據部分， GLM 5.1 則再一次展現出其實力。

SWE-Bench Pro拿到58.4分，高於GLM-5的55.1、GPT-5.4的57.7和Claude Opus的57.3。

Terminal-Bench 2.0是63.5，CyberGym直接68.7，比上一代提升了20多分。

上下文窗口更是誇張，最大生成長度163840 tokens，帶工具調用時能到202752 tokens。

這意味着什麼？

正如前面我們提到的，以前跑長週期 Agent，模型對話次數一長，上下文一多，性能就開始雪崩。

現在，GLM-5.1能穩定跑到600輪以上，依然保持高水準。

那麼開發者終於可以放心地把一些相對複雜工程任務、長期運維Agent、甚至網絡安全紅藍對抗任務交給它。

在其官方示例中，還展示了使用 GLM 5.1 花費8小時從零構建一個Linux桌面環境。

同時，更重要的是，這次是完全開源、MIT協議。

這意味着不管你是個人開發者、小團隊，還是企業，都可以隨便商用、修改、二次開發，不用擔心後面被收割，這比很多 Apache/GPL 許可證開源的大模型來得更加實在（當然這並不是在說這些就不好）。

如果把長時序不退化、能力強、完全開源、性價比高這幾點放在一起看，GLM-5.1很有希望成爲當前一段時間內最好的 OpenClaw 底座模型。

以前大家做複雜Agent時，總要在閉源大模型和本地部署之間糾結，但現在GLM-5.1直接把這個選擇題變成了多選題，且答案還是很香的。

GLM-5.1的出現，把國產開源模型在長時序Agent領域的能力直接拉到新高度。

開源AI的競爭越來越卷，但卷的方向也越來越務實：不止參數提升，於實際工程裏的痛點，也在被逐一解決。

GLM-5.1這一步，走得很實在，，以後做長時序Agent項目，應該會舒服很多。

希望後面有更多國產開源模型繼續往這個方向卷，把“跑得越久越強”變成行業標配。

那樣的話，普通開發者手裏能用的Agent底座就會越來越靠譜，整個生態也會真正熱鬧起來。

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com

相關資訊 更多