前陣子,老黃在 CES 上又狠狠秀了波肌肉。
不過呢大多數人,基本都被全新的 RTX 50 系顯卡給吸住了,世超這兩天研究了下發現,那些被咱 “ 冷落 ” 的新技術裏,一個兩個其實也都憋着大招。
就拿Cosmos 世界基礎模型平臺來說,這可是個讓 AI 能夠理解物理世界的好東西。
根據官方的說法, Cosmos 平臺是一個專門爲物理人工智能開發者設計的平臺。
這又是物理人工智能,又是開發者,打眼一看,好像跟咱也沒啥太大關係。
但大夥兒先彆着急,這次 Cosmos 一發布,技術報告一甩,有些報道的標題已經用上了 “ 開啓物理 AI 大時代 ” 這樣的字眼,連老黃都說“ 機器人的 ChatGPT 時刻即將到來 ”。
而世超也去翻了翻 Cosmos 的技術報告,這麼說吧, Cosmos 就好比物理 AI ( 機器人、無人車等 )的“ 黃埔軍校 ”,咱們以後能不能指望機器人養老,它說不定能幫上大忙。
後面那幾個專業名詞沒聽說過不要緊,但模型總該知道是啥吧。
這次,英偉達一口氣在 Cosmos 上發佈了 8 個世界基礎模型,而且都是基於 2000 萬小時的視頻訓練出來的,參數量從 40 億到 140 億不等,根據不同場景的應用需求,還可以分爲 Nano 、 Super 和 Ultra 三種。
看着唬人,但世界基礎模型,跟咱們熟悉的圖像、視頻生成模型差不多,是生成式 AI 模型。
只不過它生成的東西並不是視頻那麼簡單,更準確的說,當你輸入文本、圖像、視頻或者運動數據以後,世界基礎模型生成的是有物理規律的 “ 場景 ” 、 “ 環境 ” 。
本質上,就是合成出高度仿真的數據,來實現物理 AI 跟虛擬環境的交互。
至於其他的什麼高級分詞器、安全護欄和加速數據處理管道,咱瞭解個大概就行。像高級分詞器可以把複雜的數據簡化,給數據劃重點。安全護欄就更好理解了,就是防止有害的輸出,保護隱私。
另外, Cosmos 還用到了一個 “ 先預訓練再後訓練 ” 的法子。
大概意思是,預訓練階段先給模型喂大規模的真實視頻數據,起碼要讓模型知道物理世界到底是咋運轉的。
接着,後訓練階段再具體問題具體分析,對預訓練模型進行微調,滿足特定任務的需求。
總之就是, Cosmos 平臺通過各種技術手段,爲物理 AI 構建出了一個跟現實物理世界類似的空間和交互環境。
不過說了這麼半天,可能有差友還是沒太明白,這玩意兒到底能用來幹啥。
其實這個問題,老黃已經在發佈會上講得很清楚了,就是機器人和自動駕駛汽車。
拿機器人行業來說,爲啥這麼多年了一直沒啥大突破,很重要的一個原因就是缺數據。
但這些數據,恰恰是最難收集的。
還是拿機器人洗碗舉例,看似動作很簡單,但機器人想學會你得有視覺數據,比如餐具的形狀大小、油污程度,還有抓放碗的力度、用多大力氣擦洗這些力學數據,當然,洗碗過程中手臂移動、抓取角度的調整,包括一些複雜的動態因素,也需要收集、標註數據。
像之前的斯坦福 Aloha 家務機器人,還是開發者通過親身示範 “ 遙控 ” 機器人完成指定動作,來收集數據。
所以這個時候, Cosmos 就派上用場了。
模擬出一個洗碗環境,不就相當於,提前給機器人預習了一遍現實世界,等模型出師了,再放到現實世界去實操。
這樣一來,訓練效率上去了,成本也能控制住。
OpenAI 投的那家 1X ,用 Cosmos 來給機器人做動態規劃。
小鵬也用 Cosmos 來合成各種天氣和路況的數據,訓練自動駕駛算法。
當然了,精準模擬現實世界只是理想狀態下的 Cosmos ,包括技術報告裏也提到,現階段的世界基礎模型還比較早期,生成的視頻並不完全符合物理規律。
該說不說,世超現在也覺得走世界模型這條路,確實有搞頭。
如果有一天, AI 能對現實世界進行模擬甚至是一比一復刻,並像咱們人一樣理解世界、做出決策,這才更貼近咱們人類對於人工智能的期望。
去年,包括 Lecun 、李飛飛這些 AI 大拿,還有谷歌 Deepmind ,其實都在研究世界模型。世超盲猜一波,今年在世界模型和機器人領域裏,可能會出現突破性的進展。
但不管成與不成,擅長 “ 賣鏟子 ” 的英偉達,都是那個最大贏家。
撰文:西西
編輯:江江&面線
美編:子曰
圖片、資料來源:NVIDIA Cosmos World Foundation Model Platform for Physical AI
部分圖源網絡
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com