阿里也搓了個會玩手機的模型?還是最強?

今天有小夥伴給我說又發現了一個新的類似於 AutoGLM 的項目,我其實並沒有太大的情緒波動的。

去年下半年(是的,歡迎來到2026)“智能體 + GUI 自動化”相關的項目實在太多了,展示階段一個比一個流暢,真要落到實際使用裏,往往很快就會暴露出邊界以及各種各樣的問題(比如豆包手機慘遭封殺)。

很符合我對未來得幻想,這泰褲了,不是嗎?

看得多了,自然會多一層保留。


MAI-UI 給我的第一感受,是它在界定問題時顯得比較剋制。項目整體傳遞出的信號很明確:它關注的並不是“讓模型看起來更聰明”,而是嘗試回答一個更具體的問題——模型究竟該如何理解 GUI 這個複雜且充滿干擾項的環境。(同時其模型還做到了SOTA!)

這個切入點,本身就值得單獨聊一聊,我們先說一個再常見不過的場景。


老婆發消息:記得去盒馬買之前我給你說過的東西,你應該在備忘錄記了吧?


這句話對人來說幾乎不需要解釋,但對系統來說,全是未顯式表達的信息。


買啥東西?

備忘錄?什麼備忘錄?

什麼是盒馬?怎麼去盒馬買東西?


MAI-UI 想處理的,正是這種人類默認共識很多、但機器完全缺乏背景的中間地帶。

User instruction: 去盒馬買菜,買一份雪花牛肉卷、一份娃娃菜、一份金針菇,再隨便買一個豆製品。對了,去日曆中待辦裏檢查下我老婆有什麼要在盒馬買的,我確認下要不要一起買。

其實它得工作方式並不複雜,還是“自然語言指令 - 當前界面的截圖 - 判斷當前界面元素、狀態 - 決定下一步動作”這一過程,整個過程強調的是對界面的理解與推理,而非執行一條預先寫死的操作路徑。


這一點在 UI 自動化語境下非常重要。


在傳統自動化方案裏,這些工具對界面變化是十分敏感的,按鈕稍微換個位置、文案改一行,流程就可能直接失效。MAI-UI 的關注點明顯不在“位置”,而在“語義”:界面當前在表達什麼、允許做什麼。

另一個讓我覺得比較理性的設計,是它對不確定性的處理方式。


不少自動化系統一旦做出判斷,就會直接執行到底,中途幾乎不留迴旋空間。MAI-UI 在指令存在歧義時,會選擇停下來確認。這種行爲並不新鮮,但在智能體系統中並不常見。

比如“把行程計劃發給大家”這樣的指令,系統可能會確認發送範圍,是羣裏所有人,還是隻包括核心成員。這個細節本身並不驚豔,卻很貼近真實使用環境,也減少了誤操作的風險。


從這個角度看,MAI-UI 並沒有試圖迴避一個事實:


理解人類語言,本身就存在不確定性。


它在設計上承認這一點,而不是假設模型總能給出正確解讀,這種態度至少是務實的。


當然,MAI-UI 的能力並不只停留在界面操作層面。


項目中引入了 MCP 的工具調用機制,在合適的情況下,系統可以直接調用接口或工具完成任務,而不是強行在 GUI 裏模擬人類操作。這讓執行路徑更短,也降低了對界面穩定性的依賴。

這個選擇明顯偏工程取向:不追求“像人一樣點”,優先考慮效率和可控性。對真實系統來說,這樣的取捨通常比視覺上的擬人更重要。


此外,端雲協同的設計也值得一提。並非所有判斷都交給雲端模型處理,一些簡單邏輯在本地完成,複雜推理再交由雲端。這種拆分在成本、延遲和穩定性上都更現實。


目前從其公開信息來看,MAI-UI 在 ScreenSpot-Pro、AndroidWorld 等 GUI 理解與移動端任務 benchmark 中的表現相對靠前,至少可以再次確認,它並非只是在演示demo裏成立。

當然,demo 並不等同於真實複雜環境,這一點需要保持清醒。


模型方面,項目提供了從 2B 到 235B 的不同體量選擇,其中 2B 和 8B 開源(阿里:想玩更強的?自己搓/用我們的吧),同時也給出了較完整的部署與使用說明。對感興趣的人而言,這至少意味着項目不是停留在論文階段,想實際跑一跑試試也不算多難。


說到這裏,其實沒必要急着給 MAI-UI 下什麼宏大的結論。


它並不能立刻改變人機交互的形態,也距離“人人可用”還有不少工程工作要做(跟豆包手機甚至是AutoGLM比其實都差得不少)。但如果把視角收緊一些,只看它試圖解決的問題和採取的路徑,這個項目的定位是清晰的,也相對務實。


它沒有把 GUI 簡化成一堆座標,也沒有把智能體想象成萬能執行者,而是嘗試在理解、推理和執行之間找到一個可持續的平衡點。


對於關注智能體、自動化,或者已經被重複界面操作消耗耐心的人來說,MAI-UI 至少值得被放進觀察名單裏。


不一定現在就用,但值得持續關注它接下來會怎麼走。

我是CyberImmortal,關注我們,帶你暢遊AI世界!

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com