MiniMax M3:原生多模態的前沿模型

MiniMax 3 今天發佈了,我們來快速過一下。

M3 對自己的定位很明確:


前沿 Coding 能力、1M 上下文、原生多模態,三項合一。


MiniMax 表示這是國內第一個齊備這三個要素的模型,同時也是目前唯一開源的,海外前沿閉源模型已經普遍具備這三項能力,國產模型中同時湊齊的此前確實沒有。


架構方面,M3 最大的變化在注意力機制。


去年 M2 還在使用全注意力機制,MiniMax 當時發過博客解釋,認爲稀疏注意力尚未達到生產就緒狀態。六個月後 M3 採用了自研的 MSA(MiniMax Sparse Attention)。

核心設計是雙分支結構,索引分支快速掃描定位關鍵信息,稀疏分支對篩選出的 Token 做精準計算。與 DeepSeek 的 NSA 相比,MSA 只保留了選擇分支,砍掉了壓縮和滑動窗口分支,好處是可以直接複用 FlashAttention 核函數,工程實現成本較低。


100 萬 Token 上下文下,每個 Token 計算量僅爲上代模型的 1/20。預填充階段加速超 9 倍,解碼階段加速超 15 倍。對照實驗中 MSA 的能力與全注意力基本持平。


Coding 和 Agent 是 M3 重點提升的方向。


SWE-Bench Pro 得分 59.0%,超過 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。Terminal Bench 2.1 得分 66.0%。SVG-Bench 上超過 Opus 4.7,Claw-Eval 拿到最高分,在跑分上,編程和 Agent 任務方面 M3 已進入第一梯隊。

MiniMax 用幾個實際任務做了能力展示。


論文獨立復現方面,給 M3 一篇 ICLR 2025 獲獎論文,要求自主復現核心實驗,M3 運行了近 12 小時,產出 18 次 commit 和 23 張圖表,跑通了核心實驗。這個過程對綜合能力要求較高,需要多模態來理解論文圖表,需要長上下文把論文加代碼加日誌一次塞入窗口,還需要編程和 Agent 能力做長線程執行。

在 CUDA 算子優化方面,讓 M3 從零寫一個 Hopper 架構上的 FP8 矩陣乘法 kernel,只提供了任務描述和一份無法運行的骨架代碼。M3 運行了約 24 小時,147 次提交,1959 次工具調用,將硬件峯值利用率從 7.6% 提升到 71.3%,實現了 9.4 倍加速。MiniMax 表示除 Opus 4.7 和 M3 以外,其餘模型大多在前 30 次提交內就停止推進。

多模態方面,M3 從 Step 0 開始進行多模態混合訓練,支持圖片和視頻輸入,還能操作電腦桌面。MiniMax 提到 Interleaved data,即文本和圖像在序列中交替排列的混合數據,對模型性能提升的影響比預期更顯著,重構數據管線後訓練數據規模達到 100 萬億 Token 量級。


接下來 10 天內 MiniMax 將更新技術報告並開源模型權重,感興趣的朋友可以關注一下。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com