NVIDIA最新發(fā)布的RTX 5090和RTX PRO 6000顯卡近日被曝存在嚴重虛擬化漏洞。據(jù)wccftech報道,該漏洞會導致顯卡完全無響應,必須物理重啟主機系統(tǒng)才能恢復。

GPU云服務商CloudRift率先在生產(chǎn)環(huán)境中發(fā)現(xiàn)了這一問題。他們在多臺搭載Blackwell芯片的系統(tǒng)上復現(xiàn)了該故障后,發(fā)布了詳細的技術(shù)分析報告,并設立1000美元獎金公開征集解決方案。
技術(shù)分析顯示,該漏洞出現(xiàn)在GPU通過KVM和VFIO傳遞給虛擬機后。當虛擬機關(guān)閉或GPU重新分配時,主機系統(tǒng)發(fā)出的PCIe功能級重置(FLR)無法使顯卡恢復正常狀態(tài)。系統(tǒng)日志顯示"FLR后65535毫秒仍未就緒;放棄"的錯誤提示,此時顯卡完全失去響應,甚至無法被lspci工具識別。
值得注意的是,AI初創(chuàng)公司Tiny Corp也獨立驗證了這一漏洞,并質(zhì)疑Blackwell架構(gòu)是否存在硬件缺陷。社區(qū)討論中,多位RTX 5090早期用戶報告了類似問題,包括Windows虛擬機關(guān)閉后導致整個主機系統(tǒng)掛起等異常情況。
目前測試表明,調(diào)整PCIe ASPM或ACS設置均無法解決該問題。值得慶幸的是,舊款顯卡如RTX 4090尚未出現(xiàn)類似報告,暗示該漏洞可能僅限于NVIDIA Blackwell系列產(chǎn)品。





























浙公網(wǎng)安備 33010502007447號