DeepSeek 新發布的 DSpark 是什麼？國產AI又有新突破嗎？

DeepSeek 今天又發新東西了，但這次不是模型。

噢？那不用看了沒意思是不是，先別急着划走。

DSpark 不是大模型，不是新的版本，它是DeepSeek團隊和北大聯名搞的一個推理加速框架，目前已經塞進 V4-Flash 和 V4-Pro 的預覽引擎裏跑了，高併發下，單用戶生成速度提升 60% 到 85%，V4-Flash 120 tok/s 那檔 SLA 下，吞吐直接翻了 6 倍多。

簡單來說就是優化 DeepSeek 一個工具。

誒，不是念廠商稿裏的數字吧？這件事其實比很多新模型發佈更值得看，爲啥呢，因爲這是內部功力提升的一個優化，它解決的是一件很具體的事，AI 吐字太慢。

推理加速框架是什麼？

要理解這個，先得明白大模型是怎麼幹活的。你可以把 LLM 想象成一個只能一次寫一個字的學生，而且它每寫一個字，都要把整本書翻一遍，來猜下一個字最可能是什麼。

所以你問它一個複雜問題，它不單要深度思考思考想很久，還得想完了愣一下才開始回，或者寫長文的時候，一卡一卡，吐了幾句話，又卡一下下。這個學生不是腦子慢，是它寫字的機制太慢。

推理加速框架，就是給這個學生配了一個專門的草稿小弟。小弟寫得快，但不一定準，先嘩嘩譁寫一串候選字，然後學生再一次性檢查這一段對不對。對的留下，錯的重寫。這樣學生就不用每寫一個字都翻一遍書，整體速度就上去了。

先把一個事情做成60分，然後再把它從60分優化到80分，大概背後是有這種指導思路的影子。

DSpark 就是這個草稿小弟的升級版。它不只是發論文，是真塞進了 DeepSeek 自己的生產引擎裏跑。

好，原理就這樣。但你是不是決定，誒，我如果不用 DeepSeek ，我就是天天喜歡豆包姐姐哄我開心，可能覺得這事兒跟你沒關係。

有關係的。

你下次用 DeepSeek-V4 的時候，尤其是 Flash 或者 Pro 那兩檔，會明顯感覺它回得快了。高峯期你堵在加載動畫轉圈的概率小了，它回你回得快了，而且這種技術思路也會同樣影響其他大模型的發展，以前爲了追求速度用的那些 Flash 模型也可以變得更強了。

Pro 通常是全參數稠密模型，或者 MoE 裏專家數/總參更大，每步激活參數量高；

Flash 傾向更小的稠密模型，或MoE 但專家更少/總參壓得很低，推理快、省顯存。

那如果這個技術能改善吐字，以前爲了吐字快的那些犧牲就可以加回來了。

普通用戶能直接感知的部分主要是這塊。

降本增效大法好

DSpark 真正有意思的地方不在這。

我有時候覺得，2025 年到 2026 年這一年，外界看中國 AI 特別容易只盯着兩件事，模型參數又多大，榜單又刷了多少。

搞得好像 AI 就只剩刷榜這一個玩法似的。

其實不完全是這樣。

你看看OpenRouter 最近這個月的數據，前三名爲什麼用的多呢？

DeepSeek V4 Flash

Hy3 preview （騰訊元寶默認的那個混元模型）
MiMo-V2.5（小米做的類似 DeepSeek 路線的 LLM）

好難猜啊。

你去查一下這三個模型的 API 定價？然後再看看Claude 的定價？

除了少數富哥，多數人玩 AI 燒token那肯定還是要看看性價比的。

模型本身強不強是一回事，模型能不能低成本、高併發、穩定地跑出來服務用戶，是另一回事。前者是面子，後者是裏子，DSpark 乾的就是裏子活，等於是能讓原來的模型進一步提高效率，原先就很快的大模型能進一步加參數增智慧，原先的超大模型能講話更利索和普通大模型一樣快了。

DeepSeek 大模型官方 API 的價格更是物美價廉，如果不是特別重度的任務或者是有多模態需求，我真的安利去買它們家的 API，自己配一個 claw 或者是現在其他阿里/騰訊/百度/字節能有配置項能自己加 api key的話，也可以用別人的前端對接 DeepSeek API，真的很不錯。

你如果是自己搭推理服務的，不管是創業團隊還是公司私有化部署，絕大多數人第一時間想到DeepSeek ，主要開源倉庫（挑幾個有代表性的）你都可以拿下來玩。

模型權重另託管在 Hugging Face：huggingface.co/deepseek-ai（V3 / R1 / Coder / Janus 權重都在那）

你如果在跑 Qwen3-4B、8B、14B 或者 Gemma-4-12B 當目標模型，DSpark 草稿模型可以直接拉 checkpoint 試，不用從零訓。

論文裏 Qwen3-4B 上 DSpark 相對 Eagle3 接受長度提升 30.9%，相對 DFlash 提升 16.3%。

接受長度直接決定你每秒能出多少 token。

成本賬也好算，假設你跑 V4-Pro 類服務，SLA 定在 50 tok/s 那檔。原來 MTP-1 基線單卡扛不動，得堆卡，DSpark 標稱吞吐提升 406%，同樣 QPS 下，卡數可以往下調一檔，或者同樣卡數扛 4 倍流量。

8 卡 H100 原來扛 100 QPS，換 DSpark 後理論能扛 400 QPS。或者 2 到 4 卡就能扛原來的量。電費、折舊、卡租金，按月算省的是實錢。

但有個坑得提醒。

DSpark 的並行主幹不管你最後驗多長，都得先把完整候選塊算出來。

複雜查詢接受率低的時候這部分草稿算力回收不回來。如果你的場景是長推理鏈加高拒絕率，比如 deep research 類 agent 跑複雜規劃，DSpark 的收益會被打折，別盲目上。

站在純學術研究的角度，DSpark 確實不是在提出新架構，而是在工程化上往前推了一步，降本增效了的風也吹進AI了屬於是。

DSpark 真正值得看的點，是中國團隊開始有能力在推理系統這種髒活累活上自己找解法。不是跟着別人論文後面跑，而是把東西塞進生產引擎，再開源出來讓人復現，已經是自己在探索一片漆黑未知的技術方向了。

AI 已經是科技戰的重要部分

中國AI大模型技術，正在昂首矯健步入第一梯隊。

旗艦也追得很近，中段和性價比端已經再內卷模式下對普通消費者及其友好。

那第一梯隊是不是有人不爽了呢？

當然了，6 月 2 號，特朗普簽了行政令 14409，建了前沿模型自願預發佈審查框架，10 天后商務部對 Anthropic 發出口管制令，本來是想說限制只給美國用不給其他國家用，但是人家 Fable 5 / Mythos 5 安排是全球下線，又過 13 天，GPT-5.6 發佈節奏被華盛頓接管，從自願框架到實際管控，難道是過於先進不便展示的新戰略？搞不好之後美國軍方相關利益方是不是又要搞出什麼新花樣。

放在這個背景下看 DeepSeek 的開源，就很有意思了，你是跟老美還是要跟老中？