MiniMax M3：原生多模态的前沿模型

MiniMax 3 今天发布了，我们来快速过一下。

M3 对自己的定位很明确：

前沿 Coding 能力、1M 上下文、原生多模态，三项合一。

MiniMax 表示这是国内第一个齐备这三个要素的模型，同时也是目前唯一开源的，海外前沿闭源模型已经普遍具备这三项能力，国产模型中同时凑齐的此前确实没有。

架构方面，M3 最大的变化在注意力机制。

去年 M2 还在使用全注意力机制，MiniMax 当时发过博客解释，认为稀疏注意力尚未达到生产就绪状态。六个月后 M3 采用了自研的 MSA（MiniMax Sparse Attention）。

核心设计是双分支结构，索引分支快速扫描定位关键信息，稀疏分支对筛选出的 Token 做精准计算。与 DeepSeek 的 NSA 相比，MSA 只保留了选择分支，砍掉了压缩和滑动窗口分支，好处是可以直接复用 FlashAttention 核函数，工程实现成本较低。

100 万 Token 上下文下，每个 Token 计算量仅为上代模型的 1/20。预填充阶段加速超 9 倍，解码阶段加速超 15 倍。对照实验中 MSA 的能力与全注意力基本持平。

Coding 和 Agent 是 M3 重点提升的方向。

SWE-Bench Pro 得分 59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7。Terminal Bench 2.1 得分 66.0%。SVG-Bench 上超过 Opus 4.7，Claw-Eval 拿到最高分，在跑分上，编程和 Agent 任务方面 M3 已进入第一梯队。

MiniMax 用几个实际任务做了能力展示。

论文独立复现方面，给 M3 一篇 ICLR 2025 获奖论文，要求自主复现核心实验，M3 运行了近 12 小时，产出 18 次 commit 和 23 张图表，跑通了核心实验。这个过程对综合能力要求较高，需要多模态来理解论文图表，需要长上下文把论文加代码加日志一次塞入窗口，还需要编程和 Agent 能力做长线程执行。

在 CUDA 算子优化方面，让 M3 从零写一个 Hopper 架构上的 FP8 矩阵乘法 kernel，只提供了任务描述和一份无法运行的骨架代码。M3 运行了约 24 小时，147 次提交，1959 次工具调用，将硬件峰值利用率从 7.6% 提升到 71.3%，实现了 9.4 倍加速。MiniMax 表示除 Opus 4.7 和 M3 以外，其余模型大多在前 30 次提交内就停止推进。

多模态方面，M3 从 Step 0 开始进行多模态混合训练，支持图片和视频输入，还能操作电脑桌面。MiniMax 提到 Interleaved data，即文本和图像在序列中交替排列的混合数据，对模型性能提升的影响比预期更显著，重构数据管线后训练数据规模达到 100 万亿 Token 量级。

接下来 10 天内 MiniMax 将更新技术报告并开源模型权重，感兴趣的朋友可以关注一下。

更多游戏资讯请关注：电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com