2月21日,DeepSeek在這一週接連放出大招,週二「方案選單」前腳馬斯克公開了Grok3,後腳DeepSeek推出了新論文NSA,今天DS團隊表示下週是DeepSeek的開源周,將陸續開源5個repos,DeepSeek非常誠懇地表示,“我們是一個探索AGI的小團隊,將以完全透明的方式分享我們微小但真誠的進展。”
這五個代碼庫都是DeepSeek已經文檔化、部署過的基礎構建模塊,在生產環境中經過實戰檢驗,DS承諾:“作爲開源社區的一部分,我們相信分享的每一條線路,都會成爲加速旅程的集體動力,下週每日開源活動即將到來。沒有象牙塔——只有純粹的車庫能量和社區驅動的創新!”
“開源周”這個概念是對標OpenAI,去年底山姆·奧特曼開了個連續12天的技術發佈會,不過由於OpenAI是閉源的,GPT系列模型的核心代碼和訓練數據不公開,OpenAI被戲稱爲CloseAI,完全限制了社區參與和創新。作爲對比,DeepSeek這次的開源周獲得大量研究人員的力挺,Github上Star數量已經超越了OpenAI旗下的幾個項目,同時DeepSeek還登頂了Huggingface點贊榜,成爲今年全球最受歡迎的新模型!
這次開源周DeepSeek說要開源5個代碼庫,這裏我根據DS現有發表過的論文預測,首先有可能發佈的就是這周的NSA原生稀疏注意力機制的新論文模塊,論文我在社區給大家做過詳細解讀,但是那篇解讀更多的是從讀懂論文角度出發,DS真正厲害的地方在於,NSA已經達到了工業級水準,原論文中Kernel的具體方法不算清晰,而且內存優化、模型訓練和推理上還有很多細節,DeepSeek可能會在下週以開源模型+發佈會+QA的形式,將這些內容全部公開。除此之外,DS在年後還發布了一個多模態Janus-Pro-7B的小模型,加上DeepSeek-V3和DeepSeek-R1的一些訓練工具模塊也可能會公開。
DeepSeek公告裏還提到“沒有高不可攀的象牙塔,只有純粹的車庫文化和社區驅動的創新”,我認爲是DS在整個AI大模型領域發起了一場全新的革新運動,DeepSeek追隨的是硅谷科技創新的車庫文化,推崇務實低調,不希望將領先的技術關在象牙塔裏高高樹起,而是以開源的方式分享給社區,全球共同來推動AI技術的進步,從這個角度來說,DeepSeek已經走在了最前列。
下週同樣可能引起巨大波動的還有股市,上次DeepSeek發佈R1模型的時候直接引發了今年美股單日的最大跌幅,這次DeepSeek的開源周計劃可能會倒閉大量閉源企業走向開源,近期恆科指數暴漲,阿里Qwen等模型也因爲DS熱受到更多的關注!下週,我也還會繼續在小黑盒爲大家帶來DeepSeek技術的最新解讀。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com