RTX 5090遇诡异BUG完全无响应,云服务商悬赏1000美元求解决方案

来源——AMP实验室

是不是给少了

快科技报道,CloudRift是一家GPU云服务提供商,他们在生产环境中多个配备Blackwell芯片的系统上遇到了这个问题后,详细公布了问题的分析报告,并悬赏1000美元,公开征集能够找到解决方案或根本原因的人。

根据CloudRift的日志,这个漏洞发生在GPU通过KVM和VFIO传递给虚拟机后。在虚拟机关闭或GPU重新分配时,主机系统会发出一个PCIe功能级重置(FLR)。

但与正常情况不同的是,GPU并没有恢复到良好状态,而是停止响应,内核报告称:“FLR后65535毫秒仍未就绪;放弃。”

此时,显卡也变得无法被lspci读取,lspci会抛出“未知头部类型7f”的错误,CloudRift指出,唯一恢复正常操作的方法是对整个机器进行断电重启。

AI初创公司Tiny Corp也复现了CloudRift的发现,并直接提出了一个问题:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我们已经调查过,但找不到解决方案。”

社区的讨论中,许多家庭用户和其他RTX 5090的早期采用者也报告了类似的问题,一位用户表示在关闭Windows虚拟机后,整个主机系统挂起,即使操作系统级别的重启后,GPU也无法重新初始化。

用户证实,切换PCIe ASPM或ACS设置并不能缓解故障,目前还没有报告称旧型号显卡(如RTX 4090)存在类似问题,这表明该漏洞可能仅限于NVIDIA的Blackwell系列。

CloudRift提供1000美元用于确认的缓解或修复。如果找不到直接修复方法,则奖励将分配给任何帮助发现根本原因或提供可重复测试的人。该公司还在招聘一名系统工程师,并表示将考虑为解决问题做出贡献的候选人。

目前,英伟达尚未就BUG发表任何声明,这似乎仅限于基于Blackwell的卡。一位受影响的用户表示,英伟达已经意识到了这个问题,并且已经能够重现它。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com