AI從業者簡單聊聊DeepSeek

本人算ai從業者,在上海,23年後半年做infra相關的,今年前半年做rag,後半年跳槽還是做rag。

算是個略懂算法的後端工程師?

今年過年正好deepseek爆了,有時間順便聊聊,主要是感覺黑盒大多數都不是很懂這方面?觀點比較淺顯,於是決定跟盒友簡單科普下。

儘量以通俗的解釋跟大家聊一些比較關鍵的問題。

問1:deepseek(的模型)是不是真正國產?

答1:是,實際上業內deepseek在國內口碑優秀已經很長一段時間了,得益於其低廉的成本和優秀的能力。他的前身是幻方量化,很早就搞了ML量化的策略,很早也買了卡,所以科研實力和實際算力上都沒什麼問題,無可置疑。

問2:deepseek是不是真正開源?

答2:是,deepseek無論是生成式的V系列還是新出的R1,還有多模態的模型,都是開源的。

問3:關於套殼gpt的問題和論調

答3:這個實際上是很普遍的一個問題,說現象更合適。目前的llm大部份在訓練方案上其實都會去套gpt模型的數據,在問答途中gpt的輸出肯定會存在一些關於“我是gpt”這樣的說法,我記得之前百度也有過?這時候難免會有一些自我認知的問題出現,這個很正常,並不是套殼。

問4:能力上是什麼水平?

答4:這裏只說v3和r1推理,水平應該是持平接近gpt4和o1,實際中文語料佔比應該比gpt多,所以在中文場景能力上應該是更強的。gpt更適合英文語境一點。

問5:到底厲害在哪?創新在哪?

答5:這裏不說太複雜太學術。概括起來就一句話,更優秀的架構+更好的訓練方法=更小的成本+更快的速度。

主要就是架構上的創新(deepseekMoe,自己提出的架構,更細力度的專家和權重共享),更有效和更輕便,使得模型本身武功內力強。

後訓練方法上用更優秀的RL(RLHF,一種微調的算法,屬於很前沿的)方案,可以理解爲請了武林高手來做指導,別人也請,但我的更有效,更好,所以後天學的,外力強。

最後加上有效的知識蒸餾,縮小模型大小,提高性能速度,可以理解爲把不必要的功法都扔了,主練核心武功,出招更快,前搖更低。

問6:是不是現在最強的AI(公司)?

答6:並不是,Deepseek幾個主流模型能力上文已經說了,跟gpt不分伯仲,但多模態這塊應該還是有所欠缺,tts(語音生成)、多模態(圖文)這塊跟openai還差點。再一個在線服務的完整度(API)應該也沒上自家的vision多模態模型,這塊還有待提升。所以說是最強還早,但推理模型和生成模型的訓練方案和成品絕對是業界第一梯隊,按這個速度,指日可待了。

問7:跟遊戲卡降價會有關係嗎?

答7:基本沒關係。不影響。

問8:跟國內比如何?

答8:對於C端用戶而言,實際體驗目前看稍稍領先kimi都包,主要還是歸功於可以低廉的用推理模型,純粹模型的差距比較大,打開深度求索(CoT,R1模型)+聯網(RAG)。豆包kimi雖然我沒仔細調研過,但模型能力上肯定不如deepseek,但人家的產品側能力確實牛逼,營銷也是。所以哪個好用用哪個。

開發者而言,在線服務,其實已經有答案了吧,就火山那個腦殘的控制檯,我能罵半年,deepseek又便宜又好用,我是想不到除了要多模態有啥需求用火山。

離線服務看自己需求和算力,這裏順便推薦一下xinference這個項目,也是國人不錯的llm開源項目,主要側重集成+推理。

順便宣傳一下自己的知乎,最近應該還會搬一些在公司內部調研的rag/agent的文章,歡迎同行關注交流!

剩下還有想問的歡迎盒友提問,盡力回答。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com