來源——AMP實驗室
是不是給少了
快科技報道,CloudRift是一家GPU雲服務提供商,他們在生產環境中多個配備Blackwell芯片的系統上遇到了這個問題後,詳細公佈了問題的分析報告,並懸賞1000美元,公開徵集能夠找到解決方案或根本原因的人。
根據CloudRift的日誌,這個漏洞發生在GPU通過KVM和VFIO傳遞給虛擬機後。在虛擬機關閉或GPU重新分配時,主機系統會發出一個PCIe功能級重置(FLR)。
但與正常情況不同的是,GPU並沒有恢復到良好狀態,而是停止響應,內核報告稱:“FLR後65535毫秒仍未就緒;放棄。”
此時,顯卡也變得無法被lspci讀取,lspci會拋出“未知頭部類型7f”的錯誤,CloudRift指出,唯一恢復正常操作的方法是對整個機器進行斷電重啓。
AI初創公司Tiny Corp也復現了CloudRift的發現,並直接提出了一個問題:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我們已經調查過,但找不到解決方案。”
社區的討論中,許多家庭用戶和其他RTX 5090的早期採用者也報告了類似的問題,一位用戶表示在關閉Windows虛擬機後,整個主機系統掛起,即使操作系統級別的重啓後,GPU也無法重新初始化。
用戶證實,切換PCIe ASPM或ACS設置並不能緩解故障,目前還沒有報告稱舊型號顯卡(如RTX 4090)存在類似問題,這表明該漏洞可能僅限於NVIDIA的Blackwell系列。
CloudRift提供1000美元用於確認的緩解或修復。如果找不到直接修復方法,則獎勵將分配給任何幫助發現根本原因或提供可重複測試的人。該公司還在招聘一名系統工程師,並表示將考慮爲解決問題做出貢獻的候選人。
目前,英偉達尚未就BUG發表任何聲明,這似乎僅限於基於Blackwell的卡。一位受影響的用戶表示,英偉達已經意識到了這個問題,並且已經能夠重現它。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com