華爲昇騰0Day支持智譜GLM-5.2模型，提供全面推理優化

6 月 18 日消息，“昇騰 AI 開發者”公衆號 6 月 17 日宣佈，昇騰 0 Day 支持 GLM-5.2，爲編程與長程任務提供全面推理優化。

據官方介紹，目前昇騰 A3 系列產品已經支持 GLM5.2 的單雙機以及大 EP 推理部署。針對 GLM5.2 模型的結構特點，昇騰圍繞以下幾個關鍵技術開展了高效推理優化：

MOE 大融合算子：將專家路由、加權計算與結果歸約融合爲統一算子，消除中間張量冗餘讀寫，顯著提升計算效率。

通信與計算融合：通過將 AllReduce 優化爲 ReduceScatter 與 AllGather 通信原語，並與矩陣計算形成緊耦合流水線，實現通信延遲的有效隱藏。

注意力前處理與多 Token 預測優化：採用注意力前處理融合算子，結合多 Token 預測（MTP）機制的加速，提升單步生成效率。

高併發調度與預填充延遲機制：在高併發混合負載場景下引入預填充延遲調度，平滑計算峯值，降低 Prefill 階段對 Decode 階段的資源搶佔。

智能緩存與索引優化：結合 IndexCache 技術緩存高頻專家路徑與靜態路由表，並採用 Chunked Prefill、稀疏索引檢索等方法，優化長上下文推理性能。

PD 分離與 Prefix Cache：通過 Prefill 與 Decode 階段分離及前綴緩存技術，壓縮解碼時延抖動，提升在線服務吞吐穩定性。

智譜 6 月 17 日宣佈上線並開源 GLM-5.2。在全球百萬用戶參與盲測的前端開發評估系統 Code Arena 上，GLM-5.2 取得全球可用模型第一的表現。

官方表示，GLM-5.2 專爲長程任務能力而生，特色包括：

Solid 1M 上下文：穩定支撐長程任務，多個長程任務基準表明 GLM-5.2 的表現介於 Claude Opus 4.7 與 4.8 之間，是排名最高的開源模型

更強體感，更實用的 Coding 能力：在主流編程基準上，GLM-5.2 保持開源 SOTA，與 Claude Opus 4.8 處於可比區間

極致 Infra 優化，Day 0 運行在國產算力平臺：在 1M 上下文長度下，將單位 token 的 FLOPs 降低至 2.9 倍；已在 Day 0 完成與華爲昇騰、平頭哥、摩爾線程、寒武紀、崑崙芯、沐曦、海光、壁仞等國產算力平臺的推理適配；預計下半年昇騰 950 超節點上市後，也將成爲 GLM-5.2 強勁的算力底座