即夢4.5發佈:美學滿分,跟香蕉打的有來有回

AI圈子最近有點讓人目不暇接。


還沒有徹底玩明白 Sora 2,感嘆視頻生成終於跨過了“恐怖谷”;也沒有徹底玩明白 nanobanana Pro,字節跳動昨晚又悄沒聲地在火山引擎上端出了一盤硬菜:圖像創作模型——即夢4.5。


這一波更新真的挺值得看看。


咱們都知道,國產大模型在“語言”上卷得差不多了,現在戰火終於燒到了“視覺”這個更直觀、也更喫算力的領域。


我看了一圈官方演示和各路大神的實測,感覺字節這次的策略非常清晰:不整虛的,先在“好看”和“能用”這兩個方向上下大功夫。


顏值的勝利

首先得承認,即夢4.5 在“文生圖”這個老本行上,確實有點東西。


它最大的殺手鐧其實源自它的“出身”。


背靠抖音這個巨大的內容池,即夢4.5 顯然“閱片無數”。這就導致它生成的人像,不僅五官端正,更有一種很難用數據量化的“網感”。


你輸一段關於美女的提示詞,它給你的不是那種一眼假的油光皮膚3D人,而是光影、妝容、穿搭都極其符合當下審美的“即夢臉”。


在實際的商業落地時,這種討好眼球的“美學濾鏡”往往比所謂的真實感更管用。

官方宣稱這次模型整體進行了scaling,細節質感全方位提升。


但如果你以爲它只會畫美女,那就小看它了。這次Seedream 4.5真正的殺手鐧,在於它能像個漫畫家一樣“講故事”。

比如上面這張圖,這是一組科普“可控核聚變”的漫畫。


以前的AI雖然也能畫,但經常第一張主角是圓臉,第二張就變方臉,衣服顏色還能變個別的顏色。


但即夢4.5 展現出了極強的角色鎖定能力,圖裏的紅髮小孩和羅小黑,在四個分鏡里長得一模一樣(除了最下面眼睛變黃了,莫非體內核聚變?),連表情神態的連續性都非常到位。


更重要的是文字。


注意看漫畫裏的對話氣泡,雖然是AI生成的,但字跡清晰,排版工整。官方特意強調了這一點,它強化了海報等密集文字的排版渲染能力。

以後做電商海報、Logo設計,它能直接出成品,不用苦哈哈地去PS裏貼字研究了。


與谷歌“納米香蕉”的不同

看到這,你可能覺得即夢4.5 已經無敵了。


且慢。


知乎上有位叫Trisimo的網友做了一組非對比測試,找來了谷歌的Nano Banana Pro 跟即夢4.5 對比了一下,結果發現,事情沒那麼簡單。


這就類似於一個是美術學院的高材生,一個是4A公司的創意總監。


在“畫一張好看的圖”這件事上,即夢4.5做得很漂亮,但一旦涉及到圖像編輯,就似乎沒那麼優勢明顯了。


比如在設計“二次元長腿 Waifu 綠茶飲料”時,nano banana Pro 畫出來的 Waifu 娘不僅細節拉滿,畫面和諧,光看圖就想買一瓶嚐嚐味兒。

但豆包就不太行了,純粹的腦子燒糊了亂畫👇。

谷歌的Nano Banana Pro雖然畫工可能沒那麼驚豔,但顯然腦子轉得更快。


在同樣的綠茶包裝任務裏,它不僅識別出了中國元素,還在服裝設計上融入了更多巧思,甚至把瓶身上的“低糖”賣點都準確保留了下來。


更絕的是在一個“漫畫改Cosplay”的測試裏。

Seedream 4.5看到提示詞,直接把角色搞成了一個“精緻的”3D高模——雖然好看,但它沒理解“Cosplay”是指“真人扮演”。

而谷歌的Nano Banana Pro一眼看穿本質,生成的是真人穿着Cos服的照片,甚至懂怎麼把人物自然地融合進現實場景裏。


小小總結一下

其實這就是兩者的根本上區別。


即夢4.5 繼承了字節系產品一貫的強項:懂用戶喜歡看什麼,懂流量密碼,懂怎麼把畫面做得吸睛。


對於需要快速出圖、做自媒體封面、搞電商海報,需要那種特別吸睛的美女圖的人來說,它是神器,母庸置疑,好用。


而谷歌的Nano Banana Pro,骨子裏流淌着搜索巨頭的血液。


它更擅長“語義理解”和“邏輯編輯”。


它不光是在畫畫,更是在思考你這句話背後的邏輯。它知道Cosplay是真人,知道綠茶包裝需要賣點,知道康師傅牛肉麪得有“唐人街風格”纔對味兒。


這場仗打到現在,其實沒有誰把誰按在地上摩擦。


如果你是顏值黨,需要高質量素材,即夢4.5 絕對首選;如果你是設計師,需要AI幫你理解抽象邏輯,那谷歌可能更“聰明”一點。


不過,就像知乎答主擔心的那樣,如果全網都用即夢,那種標誌性的“即夢臉”會不會像當年的“網紅臉”一樣,看多了讓人審美疲勞?


這就留給時間去驗證了。


反正對於我們用戶來說,手裏多幾個好用的工具,總歸是好事。


我是 CyberImmortal,關注我們,帶你暢遊AI世界!

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com