DeepSeek 再放大招:多模態模型janus-pro

2025年1月27日,deepseek發佈的蒸發英偉達近5000億美元市值後,1月28日再次發佈多模態模型janus-pro。該模型是基於之前的janus改進,通過三刀流升級法(訓練策略優化+數據增強+模型擴容),解決了初代 Janus 的短板,成爲多模態領域的新晉卷王!

生成邏輯圖

文字生成圖性能表現

四種多模態理解基準平均性能

其中,GenEval 是一個專門評估文本到圖像生成模型在複雜指令跟隨能力上的權威榜單,相當於 AI 繪圖界的“高考”。它通過一系列刁鑽的圖文任務,測試模型是否能精準理解並執行用戶需求。而DPG-BENCH是重點測試模型在複雜文本指令下生成圖像時,能否精準保留關鍵細節(如物體屬性、空間關係、風格特徵等)。圖上都展現出janus-pro不俗實力。

圖像生成對比(janusVSjuaus-pro)

這裏是一些圖象生成對比,janus-pro比原有的Janus更加精細,更接近真實。

在這裏圖片展示了多模態理解結果,在處理來自各種上下文的輸入時表現出令人印象深刻的理解能力,展示了其強大的能力。可以識別圖片所在位置並補充圖片裏的相關信息,甚至是藝術字都可以實現識別。

抓取描述能力

雖然 Janus-Pro生成的圖像分辨率只有 384×384,但細節依然豐富,尤其在創意場景中,它能精準捕捉語義信息,生成合理且連貫的畫面。

文字生成效果

最後是本人對於deepseek一些想法:GPT盛行的時候,國內爭相模仿,推出自己的ai,卻總是被人詬病:都是套皮狗。只不過就是用別人的瓶子裝自己的酒。現在deepseek正在打破這一局面,不再是套皮,擁有自己的算法,還開源。在國外還在追求力大飛磚,想方設法套錢的時候,我們開始走向精細刀法,低價好用(至少我這兩天用deepseek,在中文語境下文字生成比GPT好太多)。見證其不斷突破歷史,從文字生成v3到現在的janus-pro多模態,很高興看到這一幕,畢竟大家都可以用的上並且好用的ai,纔是真正的“open”ai。

看到這了,除夕快樂,兄弟們!(此外,再卷快點,我要看到血流成河!!!)

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com