Gemini 突然闭嘴了:AI 这一刻的沉默,震耳欲聋

昨天半夜,Google 悄咪咪地给 Ultra 订阅用户推了个新开关,名字叫 Gemini 3 Deep Think。

这一刻,AI 终于从“拼手速”的野蛮生长,进入了“拼脑力”的深水区。


这种感觉就像是你看着身边那个只会秒回消息、嘴比脑子快的朋友,突然有一天在听到问题后沉默了十秒钟,然后给出了一个让你无法反驳的完美方案。

之前的 AI 都是“直觉型”选手,你敲下回车,它就开始吐字,不管对不对,先说为敬。但 Gemini 3 Deep Think 不一样。当你问它一个复杂问题时,它不会立刻理你。界面上会出现一行小字,告诉你它正在“探索假设”、“验证逻辑”。


它在后台像个真正的研究员一样,同时构思好几种解题思路,自己否定掉那些不靠谱的,最后只把那个经过深思熟虑的答案端上来。


让硅谷沉默的 45.1%

数据有时候很枯燥,但有些数据能让你后背发凉。这次 Gemini 3 Deep Think 甩出的成绩单里,最扎眼的不是数学题,而是一个叫 ARC-AGI-2 的测试。

这个测试在 AI 研究圈子里就是噩梦。

它不是让你背书,而是一堆花花绿绿的格子图。给你看几张图的变色规律,然后问你下一张怎么变。这对人类来说是简单的“找规律”,但对于只会做文字接龙的大模型来说,这简直就是降维打击。

之前的顶尖模型,在这个测试上的得分基本都在 0% 到个位数徘徊。因为它们没见过这些题,没法靠背题库蒙混过关。


然后 Gemini 3 Deep Think 来了,它拿了 45.1%。   

这不叫进步,这叫掀桌子。


这意味着它不再是瞎蒙,它真的“看懂”了那些格子背后的视觉逻辑。

更恐怖的是,它是“通过代码执行”达到这个分数的。它看着题目,心想“我觉得规律是 A”,写段代码跑一下发现不对,又想“那可能是 B”,再跑一下对了,最后才把答案告诉你。


再看看另一个测试:Humanity’s Last Exam(人类最后的考试)。


这名字听着中二,但题是真难。里面的题目全是各领域专家挖空心思出的,专门针对 AI 的弱点——也就是那些你把互联网翻个底朝天也搜不到现成答案的问题。


比如问你某种蜂鸟的一块特定骨头支持几根肌腱,这需要极其硬核的专业推理。   

之前的模型在这个考试上基本就是及格线以下。


Gemini 3 Deep Think 在不使用工具的情况下拿了 41.0%。这意味着如果你把这个 AI 扔进大学,它已经能在好几个硬核专业里混个学位了。它面对的是人类知识的边界,能拿到四成,就已经是个能干活的初级研究员了。

它在“想”什么?

开启 Deep Think 模式后,你会发现 AI 的反应明显变慢了。放到之前,这在以前是产品大忌,但现在这种等待变成了核心功能。


传统的 AI 是走直线的,听到问题就预测下一个字,开头走歪了后面全完。Deep Think 则是树状的,甚至是网状的。


听到问题后,它会同时派出好几个“分身”去探路。分身 A 觉得是数学陷阱,分身 B 觉得是几何问题,分身 C 觉得是脑筋急转弯。这几个分身同时推演,分身 A 路堵死了被砍掉,分身 B 越算越顺,最后 AI 综合了分身 B 的路径给你答案。

这背后的技术其实有点像当年的 AlphaGo,它把用来下围棋的那种“走一步看几百步”的蒙特卡洛树搜索,塞进了语言模型里。它在还没张嘴之前,已经在脑子里把这事儿过了无数遍。   

这也解释了为什么它会慢,以及为什么它贵。以前回答一个问题消耗 1 个单位算力,现在它要同时探索 10 个假设,每个假设再往下推演 10 步,算力消耗是指数级增长的。这叫“推理时算力”(Inference-time Compute)。Google 这次是把工程暴力美学发挥到了极致,用烧显卡的方式来换智商。

Google 的反击与焦虑

回头看看网上那张著名的“You Are Here”循环图,确实很讽刺。每隔几个月就有一家公司跳出来喊自己第一,大家似乎都在西西弗斯式的循环里打转。

但在这种循环中,Google 这一波确实打出了差异化。


OpenAI 目前给人的感觉是在往“更像人”的方向跑(多次的情感化更新),追求陪伴、情商、说话好听。

而 Google 似乎下了决心心要往“更聪明”的方向钻,追求智商、逻辑、解决难题。

这也符合 Google DeepMind 的基因。

这帮搞出 AlphaGo 和 AlphaFold 的人,最擅长的就是用 AI 解决硬核科学问题。让他们去搞陪聊简直是浪费,搞数学证明、代码竞赛才是他们的舒适区。Gemini 3 Deep Think 其实就是把他们在奥数比赛里拿金牌的能力下放到了民用版。   

Google 在赌一件事:未来的 AI 护城河,不在于谁能聊得更欢,而在于谁能真正解决复杂问题。

毕竟,聊天机器人玩久了也就那样,但如果你能帮药企研发新药,能帮程序员重构代码,那个价值是完全不在一个量级的。


给普通人的使用说明书

既然这玩意儿这么强,我们普通人该怎么用?

首先,别拿它当搜索引擎。

如果你只是问“宫保鸡丁怎么做”,求你别开 Deep Think。那是杀鸡用大炮,而且这把牛刀还得先磨半分钟,你会疯的(而且会浪费你的额度限制)。

其次,别拿它当陪聊。


Deep Think 模式下的 Gemini 就像个理工科直男,它关注的是逻辑严密性。你跟它抱怨老板,它可能会用博弈论分析出你确实该离职。


它真正的舞台,是那些你觉得“有点难,得静下心来想想”的事儿。


比如你是个程序员,遇到一个诡异的 Bug,查了各种文档也没辙,你可以把代码扔给它。它会像个老前辈一样,在后台把各种可能导致 Bug 的路径都推演一遍,然后告诉你问题在哪。或者你在做复杂的活动策划,涉及多方利益平衡,让它帮你推演方案的可行性。

用好 Deep Think 的关键,在于你会不会定义问题。你得把边界说清楚,把限制条件给足,然后放手让它去“想”。


在这个短视频刷屏、大家都不爱动脑子的时代,AI 却开始学会深度思考了。


这多少有点赛博朋克的荒诞感。人类越来越像输入输出简单的机器,而机器却越来越像沉思者。


还在刷短视频?科学家给大模型“刷垃圾”,模型成智障了


去试用一下,去感受一下那个在屏幕背后“思考”的灵魂。

虽然它现在可能还很慢,甚至偶尔钻牛角尖,但它确实代表了 AI 的另一种可能:


一种不再为了讨好你而说话,为了解决问题而沉默的可能。


我是 CyberImmortal,关注我们,带你畅游AI世界!


更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com