DeepSeek MODEL1曝光:新模型或将登场

在 DeepSeek-R1 发布一周年前后,社区有人注意到,DeepSeek 的部分 GitHub 仓库中悄悄出现了一个此前从未公开过的名字——MODEL1

该信息最早由X上@nopainkiller发现。

这种“非正式曝光”,让外界不少人判断:这很可能是 DeepSeek 下一代核心模型的内部代号。


从目前能看到的线索来看,MODEL1 并不像 V3.1、V3.2 那样是 V3 系列的延续版本。它在代码中与 “V32”(即 DeepSeek-V3.2)并列存在,使用不同的参数假设和内存布局,这通常意味着一个新的模型族。

MODEL1 被集中发现于 DeepSeek 的 FlashMLA 仓库。这个仓库专注于注意力内核的底层优化,目标是让 V3 系列在 H800 等 GPU 上跑得更快、更省内存。

目前的实现已经能在特定配置下逼近 660 TFLOPs,这本身就说明它处在非常贴近硬件的一层。


也正因为如此,这里出现的新参数,往往意味着模型结构本身发生了变化。MODEL1 在多个文件中被单独提及,尤其是在 KV cache 布局和 FP8 解码相关的逻辑里。比如在稀疏 FP8 解码模式下,MODEL1 对 KV cache 的对齐要求是 576 字节,而 V3.2 使用的是 656 字节。这样的差异不会是随手改的,它通常意味着注意力结构、head 设计或者稀疏策略已经不一样了。


换句话说,MODEL1 很可能是围绕 DeepSeek 的稀疏注意力机制重新设计过的一套模型。


更有意思的是,后来的一次提交中,DeepSeek 把这些与 MODEL1 明确相关的注释和说明几乎全部删掉了。

提交说明看起来只是一些小调整,但实际上,像“extra_k_cache 用于支持 MODEL1”这样的表述被统一模糊化,MODEL1 专属的 KV cache 对齐要求、head 维度、FP8 稀疏块结构等信息也一并消失。


这种做法通常只有两种可能:要么这些内容是实验废案,要么就是不想让外界继续顺着代码猜下去。结合 DeepSeek 一贯在模型发布前收紧信息的习惯,后者显然更合理一些。这反而从侧面确认了 MODEL1 的存在并非偶然。


并且,如果只看代码,很难判断 MODEL1 的整体方向。但把时间线拉长,会发现它和 DeepSeek 最近公开的两项研究工作高度一致。


一项是 mHC(Manifold-Constrained Hyper-Connections)。这项工作试图在不显著增加计算和内存开销的前提下,扩展残差流的“宽度”,让模型在更深层仍然保持稳定训练。从实验结果来看,它确实能在较小代价下带来性能提升,也非常适合大模型和稀疏结构。

另一项是 Engram 记忆模块。它的思路是把一些可复用的静态模式,用类似哈希 N-gram 的方式缓存下来,实现近乎 O(1) 的访问,把负担从模型早期层移走。DeepSeek 在论文中已经把 Engram 明确描述为“下一代稀疏模型的基础组件”,这几乎是在明示它会被用进新模型。

如果把这些点连起来看,MODEL1 很有可能是一次新的围绕稀疏性、内存结构和推理效率的整体重构


最后,从代码回滚、论文补充、以及 R1 文档从 22 页扩展到 86 页这些信号来看,DeepSeek 显然正处在为下一代模型“收尾”的阶段。


社区普遍猜测,MODEL1 可能会以 V4 或 R2 的正式名称出现,时间大概在 2026 年初,春节前后并不算夸张。


如果这个判断成立,那么 MODEL1 很可能会延续 DeepSeek 一贯的开源策略,并在推理效率、稀疏建模和工程可落地性上,进一步拉开与传统 dense LLM 的差距。


至少从目前泄露出的痕迹来看,这不像一次常规更新,更像是 DeepSeek 在为下一个阶段做准备。

让我们拭目以待。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com