DeepSeek 再放大招:多模态模型janus-pro

2025年1月27日,deepseek发布的蒸发英伟达近5000亿美元市值后,1月28日再次发布多模态模型janus-pro。该模型是基于之前的janus改进,通过三刀流升级法(训练策略优化+数据增强+模型扩容),解决了初代 Janus 的短板,成为多模态领域的新晋卷王!

生成逻辑图

文字生成图性能表现

四种多模态理解基准平均性能

其中,GenEval 是一个专门评估文本到图像生成模型在复杂指令跟随能力上的权威榜单,相当于 AI 绘图界的“高考”。它通过一系列刁钻的图文任务,测试模型是否能精准理解并执行用户需求。而DPG-BENCH是重点测试模型在复杂文本指令下生成图像时,能否精准保留关键细节(如物体属性、空间关系、风格特征等)。图上都展现出janus-pro不俗实力。

图像生成对比(janusVSjuaus-pro)

这里是一些图象生成对比,janus-pro比原有的Janus更加精细,更接近真实。

在这里图片展示了多模态理解结果,在处理来自各种上下文的输入时表现出令人印象深刻的理解能力,展示了其强大的能力。可以识别图片所在位置并补充图片里的相关信息,甚至是艺术字都可以实现识别。

抓取描述能力

虽然 Janus-Pro生成的图像分辨率只有 384×384,但细节依然丰富,尤其在创意场景中,它能精准捕捉语义信息,生成合理且连贯的画面。

文字生成效果

最后是本人对于deepseek一些想法:GPT盛行的时候,国内争相模仿,推出自己的ai,却总是被人诟病:都是套皮狗。只不过就是用别人的瓶子装自己的酒。现在deepseek正在打破这一局面,不再是套皮,拥有自己的算法,还开源。在国外还在追求力大飞砖,想方设法套钱的时候,我们开始走向精细刀法,低价好用(至少我这两天用deepseek,在中文语境下文字生成比GPT好太多)。见证其不断突破历史,从文字生成v3到现在的janus-pro多模态,很高兴看到这一幕,毕竟大家都可以用的上并且好用的ai,才是真正的“open”ai。

看到这了,除夕快乐,兄弟们!(此外,再卷快点,我要看到血流成河!!!)

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com