50系及4060的神經紋理壓縮實測:大大降低顯存和硬盤佔用

雙擊支持一下啦,順便求個電🥰

總而言之就是,遊戲體積大和爆顯存在NTC普及以後應該是過去式了,如果舊遊戲也做適配那就更完美了,4060在1k下可以獲得基本不佔性能的顯存佔用降低,2k稍微佔一些,顯卡性能比4060強的依次影響降低。

開頭依然介紹什麼是 RTX 神經紋理壓縮

RTX 神經紋理壓縮(NTC)是一種基於機器學習的紋理(現代遊戲的存儲空間和顯存佔用的最大頭)壓縮與解壓縮方案。

在 DirectX 12 中它支持三種運行模式:加載時推理、採樣時推理、反饋時推理;在 Vulkan 中不支持反饋時推理,僅開放前兩種模式。

——————————————————————

採樣時推理模式下,每個紋理像素會在需要時才被解壓。NTC 是確定性算法,並非生成式技術。爲減少畫面瑕疵,技術會採用 隨機紋理過濾(STF)引入隨機性,生成過濾後的紋理。

50系架構顯卡的點採樣紋理過濾速率提升一倍,因此在這類顯卡上運行速度尤爲出色。

採樣時推理是大衆認知中神經紋理壓縮的核心形態,它能最大幅度降低顯存佔用,但也會帶來一定性能開銷,對部分中低端顯卡不夠友好。——————————————————————

好在低端硬件也有對應的適配方案(下面兩個)。——————————————————————

加載時推理會在遊戲或地圖加載階段解壓 NTC 紋理,並同步轉碼爲塊壓縮格式(BCn),整個解壓過程完全在 GPU 上完成。實際表現上,它的性能與傳統塊壓縮紋理持平,沒有額外性能損耗,同時能大幅縮減紋理的磁盤佔用與 PCIe 總線傳輸量

缺點是相比塊壓縮紋理,無法進一步降低顯存佔用

——————————————————————

反饋時推理藉助採樣器反饋機制,僅解壓渲染當前畫面所需的紋理塊。該模式是前兩者的折中方案,能顯著降低顯存佔用(但幅度不及採樣時推理),性能也介於兩者之間。

最上爲現有渲染,往下依次爲加載、反饋、採樣時推理

爲什麼要用神經紋理壓縮?

神經紋理壓縮的壓縮比遠高於 BCn 等傳統格式,同時支持高通道數材質,單次可處理最多 16 個通道,而傳統塊壓縮僅支持 1–4 通道圖像。

實測數據顯示,對比轉碼爲塊壓縮格式的加載時推理模式,採樣時推理可將紋理顯存需求降低 85%

不僅如此,採樣時推理生成的畫面比 BCn 轉碼紋理更接近原始參考畫質,幾乎與未壓縮紋理完全一致。

不過該模式也存在侷限:上述優質畫面均在開啓 DLSS 的前提下實現。

隨機紋理過濾(STF)會引入隨機性,若不開啓抗鋸齒,畫面會出現大量噪點

DLSS 可以完全消除這類噪點TAA 時間抗鋸齒能大幅改善但無法徹底清除。採樣時推理強制啓用 STF,因此必須搭配抗鋸齒(優先 DLSS)才能獲得最佳畫質。

這項技術優勢明顯,但性能開銷如何?

下面在 GitHub 官方 NTC 示例程序中,對多款顯卡進行了測試。

加載時推理將 NTC 紋理轉碼爲 BCn,與傳統塊壓縮相比零性能開銷;而採樣時推理需要實時執行神經解碼,會在所有顯卡上產生性能成本,理想情況下這一開銷應儘可能小。

——————————————————————

各顯卡實測結果

RTX 5090:4K 分辨率下,採樣時推理搭配 TAA 的幀時間開銷極低;開啓 DLSS 會小幅增加張量核心負載,但在真實遊戲中,DLSS 低分辨率渲染仍能帶來整體性能收益。

RTX 5070:2K 分辨率下,採樣時推理開銷約 0.50–0.70ms;4K 下約 1.20ms。

RTX 5060:1080p 下開銷 0.60–0.70ms;2K 下超 1ms,4K 下接近 2ms。

RTX 4060 筆記本顯卡:1080p 下開銷約 0.70–0.85ms,接近 1ms。對於 8GB 顯存的筆記本顯卡,若顯存喫緊、降低紋理畫質後幀率仍充足,採樣時推理仍有實用價值。

我的註解:

20~40ms 系統總延遲是整條鏈路的總和,多 1~2ms 幾乎感覺不到,但這裏是渲染延遲

幀率 ↔ 幀時間 換算

  • 60 幀 = 每幀 16.67ms

  • 144 幀 = 每幀 ~6.94ms

  • 240 幀 = 每幀 ~4.17ms

GPU 渲染一幀本身就只有幾毫秒到十幾毫秒

爲什麼多 1ms 就很嚴重?

因爲這 1ms 是純額外開銷,是在原本的渲染時間上硬加的。

144Hz 高刷遊戲

GPU 原本渲染一幀需要 7ms

NTC 多加 1ms → 變成 8ms

幀率直接從 144fps → 125fps

直接掉 近 20 幀

4K 3A 遊戲,剛好跑 60 幀

原本一幀 16.67ms

多加 1ms → 17.67ms

幀率從 60 → 56.6fps

跌破流暢線

爲什麼到 2ms 就說 “喫力”?

尤其對 RTX 5060、RTX 4060 這種中端 / 入門卡:它們本身算力就弱,高分辨率(2K/4K)下,渲染一幀本來就接近滿載,比如一幀要15~20ms,再加 2ms,幀率掉得更狠。

英偉達 NTC 開發者在YTB評論區的回覆:

各模式適配什麼顯卡?

採樣時推理僅適合高端旗艦顯卡;加載時推理會轉碼爲 BCn,僅縮減硬盤 / 下載體積,不優化顯存。顯卡能否流暢運行採樣時推理,取決於遊戲具體實現(材質通道、着色器複雜度等),英偉達也在持續優化推理效率。

遊戲中如何落地 NTC?

遊戲可內置 NTC 紋理,提供加載 / 反饋模式與採樣模式的選項,玩家根據自身硬件性能選擇。

簡單判斷標準:如果一款遊戲因顯存不足必須降低紋理畫質,但降質後幀率過剩,就非常適合開啓採樣時推理。

同時遊戲無需對所有紋理使用 NTC,可單紋理獨立控制,畫質損失明顯的紋理可保留原始格式。

實際遊戲與測試示例的表現差異?

採樣時推理明顯慢於零開銷的加載時推理,但真實遊戲有大量不受 NTC 影響的渲染通道,整體幀時間差距會被稀釋。同架構顯卡的兩種模式相對性能差異相近。若顯卡顯存耗盡,加載時推理完全無效,因爲它不會減少工作集顯存佔用。

隨機紋理過濾(STF)的影響

採樣時推理強制開啓 STF,關閉抗鋸齒會出現明顯噪點,DLSS 可完全消除,TAA 僅能部分改善;參考模式與加載模式可手動開關 STF。

渲染技術的未來一瞥

神經紋理壓縮能在不犧牲畫質的前提下實現極高壓縮比,部分場景下畫質甚至優於傳統塊壓縮格式,不損失性能且大幅縮減遊戲體積,同時也支持 AMD、英特爾顯卡。(這兩家也做了同款技術)

神經紋理壓縮註定會在未來實時圖形領域扮演關鍵角色,對未來顯卡的規格影響也是決定性的

一如之前評論區的盒友們對3G顯存6060的調侃———

但畢竟還有這麼多舊遊戲,所以最壞的結果應該是硬件顯存增長再次放緩,60系和50系同定位顯卡顯存可能不會有太大變化。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com