6 月 18 日消息,“昇騰 AI 開發者”公衆號 6 月 17 日宣佈,昇騰 0 Day 支持 GLM-5.2,爲編程與長程任務提供全面推理優化。
據官方介紹,目前昇騰 A3 系列產品已經支持 GLM5.2 的單雙機以及大 EP 推理部署。針對 GLM5.2 模型的結構特點,昇騰圍繞以下幾個關鍵技術開展了高效推理優化:
MOE 大融合算子:將專家路由、加權計算與結果歸約融合爲統一算子,消除中間張量冗餘讀寫,顯著提升計算效率。
通信與計算融合:通過將 AllReduce 優化爲 ReduceScatter 與 AllGather 通信原語,並與矩陣計算形成緊耦合流水線,實現通信延遲的有效隱藏。
注意力前處理與多 Token 預測優化:採用注意力前處理融合算子,結合多 Token 預測(MTP)機制的加速,提升單步生成效率。
高併發調度與預填充延遲機制:在高併發混合負載場景下引入預填充延遲調度,平滑計算峯值,降低 Prefill 階段對 Decode 階段的資源搶佔。
智能緩存與索引優化:結合 IndexCache 技術緩存高頻專家路徑與靜態路由表,並採用 Chunked Prefill、稀疏索引檢索等方法,優化長上下文推理性能。
PD 分離與 Prefix Cache:通過 Prefill 與 Decode 階段分離及前綴緩存技術,壓縮解碼時延抖動,提升在線服務吞吐穩定性。
智譜 6 月 17 日宣佈上線並開源 GLM-5.2。在全球百萬用戶參與盲測的前端開發評估系統 Code Arena 上,GLM-5.2 取得全球可用模型第一的表現。
官方表示,GLM-5.2 專爲長程任務能力而生,特色包括:
Solid 1M 上下文:穩定支撐長程任務,多個長程任務基準表明 GLM-5.2 的表現介於 Claude Opus 4.7 與 4.8 之間,是排名最高的開源模型
更強體感,更實用的 Coding 能力:在主流編程基準上,GLM-5.2 保持開源 SOTA,與 Claude Opus 4.8 處於可比區間
極致 Infra 優化,Day 0 運行在國產算力平臺:在 1M 上下文長度下,將單位 token 的 FLOPs 降低至 2.9 倍;已在 Day 0 完成與華爲昇騰、平頭哥、摩爾線程、寒武紀、崑崙芯、沐曦、海光、壁仞等國產算力平臺的推理適配;預計下半年昇騰 950 超節點上市後,也將成爲 GLM-5.2 強勁的算力底座
![]()
![]()
![]()
![]()
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
