昨天半夜,Google 悄咪咪地給 Ultra 訂閱用戶推了個新開關,名字叫 Gemini 3 Deep Think。

這一刻,AI 終於從“拼手速”的野蠻生長,進入了“拼腦力”的深水區。
這種感覺就像是你看着身邊那個只會秒回消息、嘴比腦子快的朋友,突然有一天在聽到問題後沉默了十秒鐘,然後給出了一個讓你無法反駁的完美方案。
之前的 AI 都是“直覺型”選手,你敲下回車,它就開始吐字,不管對不對,先說爲敬。但 Gemini 3 Deep Think 不一樣。當你問它一個複雜問題時,它不會立刻理你。界面上會出現一行小字,告訴你它正在“探索假設”、“驗證邏輯”。
它在後臺像個真正的研究員一樣,同時構思好幾種解題思路,自己否定掉那些不靠譜的,最後只把那個經過深思熟慮的答案端上來。
讓硅谷沉默的 45.1%
數據有時候很枯燥,但有些數據能讓你後背發涼。這次 Gemini 3 Deep Think 甩出的成績單裏,最扎眼的不是數學題,而是一個叫 ARC-AGI-2 的測試。

這個測試在 AI 研究圈子裏就是噩夢。

它不是讓你背書,而是一堆花花綠綠的格子圖。給你看幾張圖的變色規律,然後問你下一張怎麼變。這對人類來說是簡單的“找規律”,但對於只會做文字接龍的大模型來說,這簡直就是降維打擊。

之前的頂尖模型,在這個測試上的得分基本都在 0% 到個位數徘徊。因爲它們沒見過這些題,沒法靠背題庫矇混過關。
然後 Gemini 3 Deep Think 來了,它拿了 45.1%。

這不叫進步,這叫掀桌子。
這意味着它不再是瞎蒙,它真的“看懂”了那些格子背後的視覺邏輯。
更恐怖的是,它是“通過代碼執行”達到這個分數的。它看着題目,心想“我覺得規律是 A”,寫段代碼跑一下發現不對,又想“那可能是 B”,再跑一下對了,最後才把答案告訴你。
再看看另一個測試:Humanity’s Last Exam(人類最後的考試)。
這名字聽着中二,但題是真難。裏面的題目全是各領域專家挖空心思出的,專門針對 AI 的弱點——也就是那些你把互聯網翻個底朝天也搜不到現成答案的問題。
比如問你某種蜂鳥的一塊特定骨頭支持幾根肌腱,這需要極其硬核的專業推理。

之前的模型在這個考試上基本就是及格線以下。
Gemini 3 Deep Think 在不使用工具的情況下拿了 41.0%。這意味着如果你把這個 AI 扔進大學,它已經能在好幾個硬核專業裏混個學位了。它面對的是人類知識的邊界,能拿到四成,就已經是個能幹活的初級研究員了。
它在“想”什麼?
開啓 Deep Think 模式後,你會發現 AI 的反應明顯變慢了。放到之前,這在以前是產品大忌,但現在這種等待變成了核心功能。
傳統的 AI 是走直線的,聽到問題就預測下一個字,開頭走歪了後面全完。Deep Think 則是樹狀的,甚至是網狀的。
聽到問題後,它會同時派出好幾個“分身”去探路。分身 A 覺得是數學陷阱,分身 B 覺得是幾何問題,分身 C 覺得是腦筋急轉彎。這幾個分身同時推演,分身 A 路堵死了被砍掉,分身 B 越算越順,最後 AI 綜合了分身 B 的路徑給你答案。
這背後的技術其實有點像當年的 AlphaGo,它把用來下圍棋的那種“走一步看幾百步”的蒙特卡洛樹搜索,塞進了語言模型裏。它在還沒張嘴之前,已經在腦子裏把這事兒過了無數遍。

這也解釋了爲什麼它會慢,以及爲什麼它貴。以前回答一個問題消耗 1 個單位算力,現在它要同時探索 10 個假設,每個假設再往下推演 10 步,算力消耗是指數級增長的。這叫“推理時算力”(Inference-time Compute)。Google 這次是把工程暴力美學發揮到了極致,用燒顯卡的方式來換智商。
Google 的反擊與焦慮
回頭看看網上那張著名的“You Are Here”循環圖,確實很諷刺。每隔幾個月就有一家公司跳出來喊自己第一,大家似乎都在西西弗斯式的循環裏打轉。

但在這種循環中,Google 這一波確實打出了差異化。
OpenAI 目前給人的感覺是在往“更像人”的方向跑(多次的情感化更新),追求陪伴、情商、說話好聽。

而 Google 似乎下了決心心要往“更聰明”的方向鑽,追求智商、邏輯、解決難題。
這也符合 Google DeepMind 的基因。
這幫搞出 AlphaGo 和 AlphaFold 的人,最擅長的就是用 AI 解決硬核科學問題。讓他們去搞陪聊簡直是浪費,搞數學證明、代碼競賽纔是他們的舒適區。Gemini 3 Deep Think 其實就是把他們在奧數比賽裏拿金牌的能力下放到了民用版。
Google 在賭一件事:未來的 AI 護城河,不在於誰能聊得更歡,而在於誰能真正解決複雜問題。
畢竟,聊天機器人玩久了也就那樣,但如果你能幫藥企研發新藥,能幫程序員重構代碼,那個價值是完全不在一個量級的。
給普通人的使用說明書
既然這玩意兒這麼強,我們普通人該怎麼用?
首先,別拿它當搜索引擎。
如果你只是問“宮保雞丁怎麼做”,求你別開 Deep Think。那是殺雞用大炮,而且這把牛刀還得先磨半分鐘,你會瘋的(而且會浪費你的額度限制)。

其次,別拿它當陪聊。
Deep Think 模式下的 Gemini 就像個理工科直男,它關注的是邏輯嚴密性。你跟它抱怨老闆,它可能會用博弈論分析出你確實該離職。
它真正的舞臺,是那些你覺得“有點難,得靜下心來想想”的事兒。
比如你是個程序員,遇到一個詭異的 Bug,查了各種文檔也沒轍,你可以把代碼扔給它。它會像個老前輩一樣,在後臺把各種可能導致 Bug 的路徑都推演一遍,然後告訴你問題在哪。或者你在做複雜的活動策劃,涉及多方利益平衡,讓它幫你推演方案的可行性。
用好 Deep Think 的關鍵,在於你會不會定義問題。你得把邊界說清楚,把限制條件給足,然後放手讓它去“想”。
在這個短視頻刷屏、大家都不愛動腦子的時代,AI 卻開始學會深度思考了。
這多少有點賽博朋克的荒誕感。人類越來越像輸入輸出簡單的機器,而機器卻越來越像沉思者。
去試用一下,去感受一下那個在屏幕背後“思考”的靈魂。

雖然它現在可能還很慢,甚至偶爾鑽牛角尖,但它確實代表了 AI 的另一種可能:
一種不再爲了討好你而說話,爲了解決問題而沉默的可能。
我是 CyberImmortal,關注我們,帶你暢遊AI世界!
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
