震撼全美！國產開源大模型火遍硅谷，DeepSeek升至美區前三！

近期，硅谷的咖啡廳裏，工程師們討論的不再只是OpenAI o1或Llama 4，一款名爲DeepSeek的中國開源大模型正悄然掀起技術風暴，從斯坦福AI實驗室到谷歌大腦團隊，從GitHub趨勢榜榜首，到Hugging Face模型下載量破百萬，DeepSeek憑藉炸裂級的想象力、極其發散的思維能力，獲得大量學者的青睞，正在全世界範圍內掀起一場新的 AI 競賽，並且DeepSeek還是完全由中國團隊一手打造的！

去年底，幻方就已經推出了DeepSeek-V3版本，號稱是AI領域的拼夕夕，模型總參數量達到671B，訓練成本約爲557.6萬美元，遠低於其他大語言模型，訓練入門版的llama-2-7b僅需要76萬美元，當時DeepSeek就已經火出圈了，我也在小黑盒介紹了DeepSeek-V3版本（https://www.xiaoheihe.cn/community/7214/list/142137916?heybox_id=19441452）。

上週，中國杭州幻方量化旗下的大模型DeepSeek，推出了最新的推理模型DeepSeek-R1 正式版，模型很快獲得硅谷科技界多位大佬背書，今天下午，DeepSeek正式超越了谷歌的Gemini、微軟的Copilot等大模型，升至蘋果商店美區免費榜的第三名！

DeepSeek-R1的性能幾乎全面對標當前最強的o1大模型，小模型已經超越OpenAI o1-mini，價格還只有 OpenAI 的幾十分之一（Sam真的賺太多了），給硅谷來了一點小小的中國震撼，一位Meta的內部員工爆料，DeepSeek直接讓Meta內部陷入恐慌，而且恐慌從DeepSeek V3就開始了，R1發佈後進一步加劇了Meta的煩惱，這名工程師還補充說，DeepSeek此前名不見經傳，訓練資金也只有550萬美元，隨便在Meta拉一位高管，薪資都超過了DeepSeek的總訓練成本。

DeepSeek R1的核心思想是知識蒸餾，蒸餾這個詞是深度學習領域的專有名詞，最早來源於Hinton教授（圖靈獎、諾貝爾物理學獎，https://www.xiaoheihe.cn/community/7214/list/135546093），簡單理解就是用一個已經訓練好的大模型（教師模型），來指導訓練一個小模型（學生模型）。

DeepSeek R1 並非基於o1，而是幻方自研的660B全參數模型R1-Zero（目前R1-Zero也已經開源），根據幻方的最新論文介紹，R1-Zero完全基於DeepSeek-V3-Base，剝離所有監督微調數據，採用純強化學習訓練，就達到了o1的水平，不誇張地說，R1也爲大模型找到了一條新路，Lecun贊DeepSeek：“這是開源模型對閉源模型的巨大勝利！”

APP：deepseek

官網：deepseek。com

Git地址：deepseek-ai/DeepSeek-R1

HuggingFace：deepseek-ai/DeepSeek-R1