MiniMax 3 今天发布了,我们来快速过一下。

M3 对自己的定位很明确:
前沿 Coding 能力、1M 上下文、原生多模态,三项合一。
MiniMax 表示这是国内第一个齐备这三个要素的模型,同时也是目前唯一开源的,海外前沿闭源模型已经普遍具备这三项能力,国产模型中同时凑齐的此前确实没有。
架构方面,M3 最大的变化在注意力机制。
去年 M2 还在使用全注意力机制,MiniMax 当时发过博客解释,认为稀疏注意力尚未达到生产就绪状态。六个月后 M3 采用了自研的 MSA(MiniMax Sparse Attention)。

核心设计是双分支结构,索引分支快速扫描定位关键信息,稀疏分支对筛选出的 Token 做精准计算。与 DeepSeek 的 NSA 相比,MSA 只保留了选择分支,砍掉了压缩和滑动窗口分支,好处是可以直接复用 FlashAttention 核函数,工程实现成本较低。
100 万 Token 上下文下,每个 Token 计算量仅为上代模型的 1/20。预填充阶段加速超 9 倍,解码阶段加速超 15 倍。对照实验中 MSA 的能力与全注意力基本持平。
Coding 和 Agent 是 M3 重点提升的方向。
SWE-Bench Pro 得分 59.0%,超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。Terminal Bench 2.1 得分 66.0%。SVG-Bench 上超过 Opus 4.7,Claw-Eval 拿到最高分,在跑分上,编程和 Agent 任务方面 M3 已进入第一梯队。

MiniMax 用几个实际任务做了能力展示。
论文独立复现方面,给 M3 一篇 ICLR 2025 获奖论文,要求自主复现核心实验,M3 运行了近 12 小时,产出 18 次 commit 和 23 张图表,跑通了核心实验。这个过程对综合能力要求较高,需要多模态来理解论文图表,需要长上下文把论文加代码加日志一次塞入窗口,还需要编程和 Agent 能力做长线程执行。

在 CUDA 算子优化方面,让 M3 从零写一个 Hopper 架构上的 FP8 矩阵乘法 kernel,只提供了任务描述和一份无法运行的骨架代码。M3 运行了约 24 小时,147 次提交,1959 次工具调用,将硬件峰值利用率从 7.6% 提升到 71.3%,实现了 9.4 倍加速。MiniMax 表示除 Opus 4.7 和 M3 以外,其余模型大多在前 30 次提交内就停止推进。
多模态方面,M3 从 Step 0 开始进行多模态混合训练,支持图片和视频输入,还能操作电脑桌面。MiniMax 提到 Interleaved data,即文本和图像在序列中交替排列的混合数据,对模型性能提升的影响比预期更显著,重构数据管线后训练数据规模达到 100 万亿 Token 量级。
接下来 10 天内 MiniMax 将更新技术报告并开源模型权重,感兴趣的朋友可以关注一下。
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
