AI文本&視頻模型齊發!谷歌又支棱起來了(附實測)

凌晨1點,Google I/O 2026 開發者大會準時開場。

今年有點特殊,AI圈熱鬧了大半年,但幾乎跟 Google 沒啥關係。


OpenAI從去年到現在,不斷有新的 GPT 發佈,前段時間還有個大火了一把的 GPT Image2;Anthropic 也有 Claude 4.6 和 4.7 以及大家想用用不上的 Mythos,甚至就連 DeepSeek 也因爲V4和識圖能力的上線都上了好幾次熱搜。


Google 呢,安安靜靜的,除了香蕉系列,Gemini 這邊一直不溫不火的,沒啥大動靜。


今天的 Google I/O 大會看完才知道,原來 Google 喜歡攢一波,然後在 I/O 上,一口氣全放出來。

今年這波,最讓我興奮的,是被安排在首個發佈的 Gemini Omni。


Omni 是 DeepMind 的 CEO Demis Hassabis 親自上臺講的,能讓 Demis 親自出馬的東西級別不一般。


Google 給它的定位是 World Model,世界模型。

這個詞以前 Google 很少這麼直接拿來講。


雖然之前有Genie系列,能從文本生成可探索的3D世界,但那是給機器人訓練用的,普通人碰不到,不過這次Omni不一樣了。


它的關鍵詞是,any input to any output(任意輸入,任意輸出)。


你不用非得寫一段prompt。


文本、圖片、音頻、視頻,任何你想的素材,都可可以同時混着餵給它,它理解這些素材之間的關係,然後生成或者修改。

發佈會現場宣傳片看着蠻不錯的,什麼手上火焰,材質變換等。

而且它支持對話式編輯。


不用時間線關鍵幀,直接用自然語言改,比如把背景換成火星、加個爆炸特效,它就能保持人物和場景一致性,同時把你要改的地方改掉。還能鎖定視頻中某個片段不變,只修改其他部分。


這種局部鎖定的能力,對做視頻創作的人來說太實用了。


(目前 Omni 模型可以被任意 Gemini 的付費擋位調用,允許使用的次數不同)


這裏我用之前 Seedance2.0 上線時的一個視頻進行了測試:

圖片,視頻見公衆號“飛碟AI”

主角被我換成了《天國拯救》中,斯卡利茨的亨利,追逐的警員也被我換成了衛兵:

圖片,視頻見公衆號“飛碟AI”

效果也還是真不錯吧。


先說個人結論:還是打不過 Seedance2.0,但有進步,個別場景很不錯。


我這裏還測試了幾個案例,大家可以參考參考。


P1:海浪拍礁石

使用Omni生成視頻,生成一段海浪排向礁石的畫面。

圖片,視頻見公衆號“飛碟AI”

畫面沒問題,聲音也沒問題,同時鏡頭感真的很不錯。


P2:保齡裝木瓶

使用Omni生成視頻,生成一段在保齡球館中,保齡球滾向並撞倒木瓶的畫面,鏡頭跟隨保齡球

圖片,視頻見公衆號“飛碟AI”

這就有點問題了,首先是球速,不知道是Omni爲了拖時間還是怎得,球速非常慢且運動速度不均勻,這是不符合現實的,不過好在最後的碰撞還行。


P3:女主買燒餅

使用Omni生成視頻,生成一段古裝劇中,女主在喧鬧集市邊喫燒餅的畫面,並跟小販說再來一個

圖片,視頻見公衆號“飛碟AI”

有點一言難盡,畫面基本和諧,人物、背景乃至鏡頭都沒問題,但燒餅莫名其妙消失了,同時人物講話一股臺味。。。

不過想想也正常。


今天發佈的是Omni Flash,是Omni家族的第一個模型,Google明確說了Omni Pro即將發佈,Flash版本拉一點能理解,就像當年Seedance剛出的時候,也是一步步迭代上來的。

關鍵是這個方向,我是真的覺得對了。


視頻生成這個賽道,正在從“我能生成一段視頻”進化到“我能理解這個世界然後生成視頻”。


Omni 把 Gemini 的推理能力和生成式媒體模型結合起來,開始處理動能、重力這些接近物理世界的問題。


這個進化方向,比單純追求畫面質量要聰明得多。


回到這次大會,Omni 之外還有個重頭戲,Gemini 3.5 Flash。

一般來說 Flash 系列是輕量快速版,主打便宜和快,但 3.5 Flash 卻做到了編碼能力、Agent能力和工具調用能力全面超越了上一代旗艦3.1 Pro。


Terminal-Bench 2.1編碼測試,3.5 Flash拿了76.2%,3.1 Pro只有70.3%。


GDPval-AA,衡量真實世界經濟價值任務的,3.5 Flash 1656 Elo,3.1 Pro 1314 Elo,差了三百多分。

但也不是沒有取捨。


3.5 Flash在Humanity's Last Exam上40.2%,比3.1 Pro的44.4%差,ARC-AGI-2上72.1%也輸給Pro的77.1%。


犧牲了知識和推理,換來了幹活的能力。


輸出速度比其他前沿模型快4倍,在Antigravity裏經過專門優化後能達到12倍。


至於價格部分,則沒有那麼美好,雖然是Flash的名頭,但價格卻來到了:


輸入$1.50/百萬token,輸出$9.00/百萬token,


這個價格不僅遠超之前的Flash且比相當一部分主流模型的普通模式貴了。。。


其他AI相關的內容,還有幾個值得提一嘴。


他們這次還發布了 Antigravity 2.0,Google 版的 Claude Code。

這次升級成了以Agent爲核心的開發環境,宣傳片裏他們讓93個子Agent並行跑,12小時從零搭了個能跑Doom的操作系統,總成本不到$1000。

還有 Gemini Spark,你的個人AI Agent。


跑在Google Cloud上,24/7不間斷,你關掉電腦它還在雲端幫你幹活。打通了Gmail、Docs、Sheets全家桶,能語音一次說多個任務讓它分頭執行。

感覺是 Claw 的類似物產品。


Search也來了個25年來最大升級。


搜索框變成了對話框,能接文字、圖片、文件、視頻,還能創建信息Agent讓它持續幫你監控某類信息。Google把Antigravity的Agent能力直接塞進了搜索框,能根據你的問題實時生成交互式界面。

一口氣看下來,Google 的方向非常統一。


模型已經變成了最基礎設施,Agent 成爲了產品,未來更多是看你這個 Agent 能不能辦事。


Omni在構建對世界的理解,3.5 Flash在用速度和成本驅動Agent生態,Antigravity在收束開發者入口,Spark在打通消費端場景,Search在做入口防守。


所有東西都在往同一個方向使勁,讓AI從“你問我答”變成“你說一件事,我幫你做完”。


我覺得這纔是這場I/O真正傳達的信息。


你想想看,一家擁有搜索、地圖、郵件、文檔、視頻、Android生態的公司,把AI從App層沉到了基礎設施層,然後用Agent把所有產品串了起來。


這比任何單個模型的跑分都更有衝擊力。


模型是基礎,Agent是未來。


更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com