RTX 5090 D顯卡首測:卡皇換一種方式秀肌肉

在RTX 40系顯卡發佈快兩年半之後,本月30號,RTX 5090D終於要上市了。

伴隨着月初CES開幕式上老黃首次揭曉50系,全網都在討論這張新顯卡以及一同發佈的DLSS 4。NVIDIA公佈的數據裏,DLSS 4能讓一些遊戲的幀數提升到8倍之多,不免讓人擔心在超高幀數背後,畫面和延遲上支付的相應代價。

帶着同樣的疑問,我們對一張七彩虹的RTX 5090D Advanced進行了詳細的測試,接下來就和大家分享一下幾天測試的感受。

首先是大家最關心的顯卡硬件方面。RTX 5090D採用了Blackwell的新架構。

全新的GB202芯片仍然使用了臺積電4nm工藝,完整核心具備24576個CUDA,而RTX 5090D開放了其中21760個,基礎頻率2.01GHz,加速頻率2.41GHz;它還搭載了第四代RT CORE(318 TFLOPS)和第五代Tensor Core(2375 AI TOPS),顯存升級到了32GB GDDR7,具有512-bit的位寬和1792GB/sec的帶寬。

這次硬件參數上的提升不算小,但和RTX 3090到RTX 4090的跨度相比又小了些。從NVIDIA公佈的文件就能明白,新顯卡的很多升級是在爲AI鋪路。雖然在參數上看不見摸不着,會被部分玩家揶揄爲“戰未來”,但在光追、材質紋理和圖層上色等方面我們已經能看見它的成效——後文裏會詳細介紹。

GB202的架構

功耗方面RTX 5090D的TDP是575W,室溫25度,單烤顯卡半小時後的核心溫度爲70度,顯存76度。散熱基本上不是問題,只需要擔心自己的電源是否還撐得住——因爲這已經比很多電腦的整機功耗還大了。

後面的跑分測試環節,我們搭配的CPU是intel 13900K,內存爲96GB DDR5 6400MHz。在3DMark基準測試下,RTX 5090D的分數對比RTX 4090D提升在40%左右,與CUDA核心的增量基本一致,證明了RTX 5090 D本身的強勁遊戲性能。

同時在3D設計和渲染領域裏,RTX 5090D在blender benchmark 4.3.0版本中的測試總分爲15038.4,相較RTX 4090 D提升43%;RTX 5090 D在V-Ray 6.0中的得分則是15131 vpaths,比RTX 4090D高出38%。這基本代表了RTX 5090D在數字設計生產力方面的性能,有着中規中矩的性能提升。

放到實際的遊戲中,RTX 5090D的綜合表現基本可以用這一張圖片來概括:

此次所有遊戲的測試數據

《APEX》終於可以跑滿4K 240幀;《地平線5》依然是超強優化,光追畫質全開在不使用DLSS的情況下幀數都超過了200;其他遊戲不開啓DLSS的時候,遊戲的幀數提升也基本與3DMark的測試結果一致。

即便用上了RTX 5090D,想要在所有3A大作裏流暢體驗光追全開的4K最高畫質,DLSS仍舊必不可少。

《黑神話:悟空》作爲新的“重點測試遊戲”,在4K最高畫質、光追全開且不使用DLSS超分辨率和幀生成時,只有32FPS。而在打開DLSS 3到性能模式,開啓幀生成後,遊戲幀數來到了132FPS,但遊戲畫面的細節會有比較明顯的模糊。

相比之下,將畫面調整爲高畫質、光追關閉能獲得一個比較折中的遊戲體驗。光追對於《黑神話:悟空》的畫面的加成其實並不多,高畫質預設下的遊戲畫面也足夠細緻,接近90FPS已經是足夠暢玩的設置了。

《黑神話:悟空》在各設置下的測試結果

相比之下,沒有光追的《使命召喚:黑色行動6》最高畫質的幀數91 FPS還算可以接受。而且在實際遊戲裏,我這樣的PvP玩家都會把很多設置調低,不需要DLSS遊戲也能十分流暢的運行。但如果一定要用最高畫質遊玩,那麼開啓DLSS超分到性能模式,體驗也很不錯,在畫面幾乎沒有損失的情況下,幀數提升了70%。

開啓超分後畫面仍然銳利

COD21在各設置下的測試結果

然後就是重頭戲DLSS 4的測試了。DLSS 4最重要的升級是DLSS多幀生成,以及爲超分辨率、光線重建、DLAA引入Transformer模型,一個在生成式AI上被廣泛使用的強大模型,從而進一步提升RTX20、30、40、50系顯卡的DLSS性能體驗。

對於超分辨率,新模型可以直接分析整個畫面,精確找到畫面變動的關鍵位置再進行分析計算,而不是和CNN一樣將畫面切塊再卷積取平均後分析。所以新模型關聯前後畫面的能力纔會遠超CNN,生成的圖像精度更高,也減少甚至避免了一些細小物體高速移動造成的頻閃問題。

Transformer讓超分辨率的效果大幅提升

Transformer模型也能分析畫面中哪些區域的光線重建需要更多的樣本,動態引導光追核心將有限的算力合理分配,達到更好的畫面效果。

新舊光線重建的效果對比

此外,MFG多幀生成技術也是DLSS 4另一個重大提升的來源。

DLSS 3的幀生成,需要採集遊戲中的運動向量和場景深度信息,經由顯卡的光流加速器計算光流場來生成一幀;而DLSS 4的多幀生成不再需要光流加速器,而是用AI模型計算出光流,一幀原生渲染幀支持最多生成三幀。就算一次4X(1渲3)插幀需要5次模型運算,但也比之前的幀生成效果要好、延遲更低。

多幀生成的原理圖

對於大家擔心的多幀生成卡頓的問題,DLSS 4使用了新的Flip Metering硬件來應對。

它可以更合理地控制幀上屏的時機。此前的幀上屏的控制需要CPU處理,存在較大的誤差,最終雖然幀數提升了,但實際遊戲體驗會感覺卡卡的;而新技術把上屏控制的權力交回給了GPU,接收到CPU每幀生成的指令後,顯卡就不用再與CPU進行確認,可以自行控制幀間的間隔,從而令多幀顯示平順絲滑。

上面關於超分和光線重建的升級適用於所有RTX顯卡,其中RTX 40系可以使用全新的DLSS 3幀生成模型,只是無法使用多幀生成,RTX 50系則可以使用全新的多幀生成模型。

這樣說起來的話,在開啓DLSS 4超分性能模式,多幀生成一渲三後,遊戲平均每4幀畫面只有1/4幀是原生的,那麼畫面裏15/16的像素點內容其實都是由AI算出來的。

在幾款已經有DLSS 4支持的遊戲的測試數據裏,可以看出在4K最高畫質光追全開時,遊戲開啓DLSS 4多幀生成確實讓幀數提升了3到8倍不等,又因爲超分提高了原生幀的基礎幀率,再加上Reflex技術,遊戲延遲也都更低了。

在AI的幫助下,《賽博朋克2077》終於通過各種手段在4K最高畫質光追全開下,跑到240以上的幀數了。

不過光是算得快沒用,算得準對於遊戲畫面來說更加重要,我們也對開關DLSS前後的畫面進行了對比。

首先是2077的三組對比,不得不說我被對比結果驚豔到了。尤其是第三張水面的倒影,超分後的畫面甚至比原生還要清晰,這應該就是光線重建帶來的增益。實際遊玩時也很順滑,對於一款單機遊戲來說它的體驗完全沒問題。

右一的水窪倒影已經超越了原生畫面

另外幾款遊戲的情況也基本相同,開啓DLSS 4後畫面均沒有明顯的變化,但幀數卻得到了成倍的提升,遊玩體驗能好上不少。

但在一些細節——比如主角的紋身,在開啓DLSS後會變得有些模糊,還有一些牆上的塗鴉和海報也有類似問題,但好在都不影響遊玩的體驗。

幾番測試下來,DLSS 4比之DLSS 3的進步非常明顯,而且能非常穩定地使用了。就算大部分像素都是“拼好幀”拼出來的,但新模型的超分辨率確實給遊戲提供了更好的畫質體驗。

不過對於FPS電競遊戲來說,他們對畫面延遲的要求會更高。

隨着RTX 50系顯卡的上市,此前用來降低延遲的Reflex也迎來了它的升級版Reflex 2。在初代技術移除渲染隊列和增強GPU高頻待機的基礎上,Reflex 2新增了Frame Warp技術,會根據鼠標輸入的即時數據,並根據遊戲內視角變化直接將已經渲染好的幀直接偏移一下就拿來使用,最大限度降低延遲,讓玩家指哪打哪。

Reflex 2能降低75%的硬件延遲

畫面更改過程中本來沒有渲染的部分(下圖中的白色部分),顯卡會用算法將畫面補全,這樣我們最終看到的畫面就是完整的了。

這聽上去挺魔幻的,因爲遊戲裏畫面邊緣的像素是沒有經過完整渲染流程的。不過這種操作通過算法將遊戲內的位置信息、顏色、視角等信息進行了綜合分析,加上超高的運算速度,實際效果相當值得期待 。

“魔幻”的圖像修補

目前Reflex 2只宣佈了《The Finals》和《無畏契約》兩款即將實裝的遊戲,在開放給RTX 50系用戶嚐嚐鮮後,最終會支持所有RTX顯卡。到時候FPS玩家就能到遊戲裏,去看看這項“魔幻”的新技術到底好不好用了。

總體而言,RTX 5090 D在光柵性能上有着常規的提升,無論是在遊戲場景還是生產力作業中都有與其定位相符的性能表現。但正像NVIDIA宣傳的那樣,它更大的升級是在軟件層面上,利用AI的不斷進步和AI加速對4K光追遊戲的提升,在《賽博朋克2077》這樣的3A大作上,讓4K240+全景光追成爲現實,讓4K 240hz的顯示器買了不喫灰。這無疑是更多玩家所期待看到的。

隨着RTX 5090 D的首發,當日即有75款遊戲支持DLSS 4,並且所有RTX顯卡用戶都能逐步體驗到大部分功能。這標誌着一個新時代的來臨,讓人期待NV和各路遊戲廠家爲我們帶來更好的硬件、技術、畫面,以及更優秀的遊戲。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com