給Agent裝上“眼睛”!GLM-5V-Turbo多模態Coding模型重磅發佈

就在今天上午,智譜AI發佈了GLM-5V-Turbo,一款專爲視覺編程量身打造的多模態大模型,同時也是Agent時代的一個實用基座。

說實話,以前開發者碰到一張設計感拉滿的網頁草圖,或者屏幕突然跳出個亂七八糟的報錯界面時,只能老老實實敲鍵盤,把邊距、顏色、組件層級、報錯邏輯這些細節硬生生翻譯成幾百字的文本,發給大模型求救。這感覺挺荒謬的——明明是人指揮機器,結果人反而得去遷就機器的“看不見”。

GLM-5V-Turbo就是來解決這個痛點的。它從預訓練開始就把視覺和文本能力焊在一起,等於長了一雙真正能“看”的眼睛。設計稿、視頻、排版複雜的文檔,它直接看懂;還能在網頁上畫框、截圖,搭配200k的超大上下文窗口,不再是簡單的認圖,它是真正理解整個界面。

大家之前一直擔心:給模型加了看圖能力,代碼生成和邏輯推理會不會掉鏈子?智譜這次直接打破了這個魔咒。他們用了新一代CogViT視覺編碼器,在強化學習階段還同步優化了三十多種任務,讓視覺和純文本能力互相加持。在國內那些硬核的純文本編程測試(比如CC-Bench-V2)裏,它照樣穩穩站在第一梯隊,視覺上線後,原來的編程實力一點沒打折。

真正用起來,前端開發者最有感覺。你隨便甩一張草圖、設計稿或者別人網站的截圖過去,模型一眼就懂,直接吐出一整段能跑的前端代碼,配色和交互細節都還原得挺到位。X上已經有開發者實測了,直接拿截圖復刻兩個前端頁面,還原度高到讓人眼前一亮。

再往下走,配合Claude Code這類框架,它還能自己跑進目標網站,摸清楚頁面跳轉、採集素材,最後把整個網站差不多復刻出來。你要是覺得哪裏不對勁,隨口說一句“加個彈窗”或者“改改表單”,它就能快速迭代,完全可視化操作。

數據分析那邊也爽多了。接入熟悉的“龍蝦”(OpenClaw)生態後,以前Agent看不懂的K線圖、券商研報裏那些花裏胡哨的圖表,現在全都能直接理解。你給個指令,它幾十秒內就能跑通多源數據,交出一份圖文並茂的專業報告。

從純文本聊天,到看圖寫代碼,再到自己瀏覽網頁執行,這其實就是AI工作流一步步進化過來的路。X上不少人評價說“GLM-5V-Turbo讓編程迴歸正道了,產品開發的正確順序本來就該是先看、再做”,還有人直接扔張草圖就生成了音樂播放器那種帶交互的App,真正實現了所見即所得。

字節、美團、快手這些大廠的內測團隊已經先驗證了它在設計稿轉代碼和複雜工作流上的表現。官方也在ClawHub上架了圖像識別、視覺Grounding、看圖寫作等技能,一鍵就能裝。

智譜說GLM-5V-Turbo已經通過MaaS平臺開放接入。如果你還在長篇大論描述屏幕上的東西,那可能已經是AI時代最將就的玩法了。Agent的下一場仗早就翻篇——比的是誰能真正看清屏幕、幹真實的活。既然有了帶眼睛的基座,就別再對着“盲人”比劃了。


更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com