在NVIDIA的定義中,GeForce RTX SUPER系列的定位相當於版本進階。與Ti系列作爲不同數字型號之間產品線完善不同,SUPER就是衝着提升對應型號性能與性價比去的。在CES 2024上首次展出的GeForce RTX 4070 SUPER就是其中一個很好的例子,不僅帶來更高的性價比,生成式AI創作上也得到進一步創新,戰鬥力十足。
更確切的說,GeForce RTX 4070 SUPER是當下最有機會進入教科書的產品之一,同樣是基於AD104打造,但核心數量已然向GeForce RTX 4070 Ti靠攏,包括7168個CUDA Core,224個第四代Tensor Core和56個第三代RT Core,重點是L2緩存一步拉滿至與GeForce RTX 4070 Ti相同的48MB,誠意已然拉滿。
重點是GeForce RTX 4070 SUPER的發佈定價與GeForce RTX 4070發佈之初相同的599美元,這意味着GeForce RTX 4070 SUPER在相同的價格策略下擁有無限接近於GeForce RTX 4070 Ti的表現,特別是當下熱門的AI加速,DLSS 3.5遊戲,以及生成式AI和NVIDIA Studio特性,在GeForce RTX 4070 SUPER上都應該會着高性價比且強勢的表現。
那麼事實真的如此?按照慣例,在性能解禁的當下,讓我們奉上NVIDIA GeForce RTX 4070 SUPER Founders Edition的首發評測。
AD104-350新範式
AD104擁有廣泛且成熟的產品線陣營,GeForce RTX 4070,GeForce RTX 4070 Ti,移動端的GeForce RTX 4080,以及專業領域的RTX 4000 Ada Generation,RTX 4500 Ada Generation都是基於AD104打造的。
GeForce RTX 4070 SUPER所採用的AD104-350-A1已經非常接近於完全體的AD104,同時繼承了所有AD102、AD103上的功能特性,包括對DirectX 12 Ultimate很好的支持,芯片面積達到294mm2,晶體管數量358億個,採用臺積電4N NVIDIA定製工藝,並圍繞第三代RT Core,第四代Tensor Core以及大量核心所構建起來的芯片。
我們知道Ada Lovelace架構GPU中包含了若干個GPC(Graphics Processing Clusters,圖形處理集羣),GPC下包含若干個TPC(Texture Processing Clusters,紋理處理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每個GPC之間包含的TPC數量相等,當GPU進行定位區分的時候再進行GPC、TPC的物理屏蔽實現。
完整的AD104包含5個GPC,每個GPC包含6組TPC,每組TPC包含2個流式多處理器(Streaming Multiprocessors,SM)。其中每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。
每個SM下的128個CUDA Core隨處理塊分成4組,每組CUDA由16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core組成。同時每個SM還包含4個第四代Tensor Core,1個第三代RT Core,成爲後續遊戲實時光線追蹤和DLSS 3.5性能提升的重要前提。
GeForce RTX 4070 SUPER的厲害之處在於,它與GeForce RTX 4070 Ti相當接近,僅在GeForce RTX 4070 Ti的基礎上減少2個TPC,即4個SM,最終擁有56組SM,7168個CUDA Core,224個第四代Tensor Core,56個第三代RT Core,224個紋理單元,80個ROP,並搭配192-bit 12GB GDDR6X。
在緩存方面GeForce RTX 4070 SUPER也毫不吝嗇,配合56組SM,每組SM搭配128KB L1緩存,因此L1緩存容量達到了7,168KB,L2緩存則沒有任何減少,達到49,152KB,也就是48MB。
這相對於GeForce RTX 30系列的GPU而言是給非常龐大的數字,就算是上一代旗艦GeForce RTX 3090的L2緩存也不過48MB,GeForce RTX 3070僅有4MB。這意味着GeForce RTX 4070 SUPER的L2緩存是GeForce RTX 3070的12倍,這將爲後續的光線追蹤性能發揮、AI加速奠定了很好的基礎。
具體對比表格參考如下:
黑化版的FE
與GeForce RTX 4070 Founders Edition一樣,GeForce RTX 4070 SUPER Founders Edition也只佔2個槽位,長度也與RTX 4070 FE相同,可以輕鬆放進ATX機箱或者更小的機型中。
在整體的設計元素上,GeForce RTX 4070 SUPER Founders Edition偏向於深黑色,包括固定中框的處理使用了深黑色外觀,上手來看實現的更高級了。散熱設計則與RTX 4070 FE相似,在GPU貼合底座使用了銅基座設計,並通過4根熱管將熱量快速擴展到鋁製散熱片中,同時雙軸風扇也提供了更好的氣體流動性,能夠提供比GeForce RTX 3070 Ti FE更強的20%氣體流動提升。
特別是針對12GB GDDR6X的發熱量,GeForce RTX 4070 SUPER Founders Edition使用了8層PCB板以確保給GPU和vRAM提供乾淨的電流,並使用了6相電源供電設計,其中2相被設計爲專爲21Gbps的GDDR6X供電。
在接口設計上,GeForce RTX 4070 SUPER Founders Edition供電使用了16pin(12VHPWR)接口設計,隨機包裝配送了2x8pin轉接線。輸出接口則包括3個DisplayPort 1.4a和1個HDMI 2.1接口。
雖然GeForce RTX 4070 SUPER Founders Edition的硬件參數已經接近於RTX 4070 Ti,但TGP僅需要220W,因此在壓力測試中GeForce RTX 4070 SUPER Founders Edition的散熱模組能夠輕鬆的穩定住GPU和顯存的發熱量。例如在壓力測試下GPU溫度最高爲68℃,通過紅外線測試可以看到GeForce RTX 4070 SUPER Founders Edition表面最高溫度在PCB部分,爲67.7℃。
與此同時,GeForce RTX 4070 SUPER Founders Edition的遊戲功耗表現也非常出色,這裏我們對5款遊戲的2K分辨率最高畫質下RTX 4070 SUPER實際功耗進行比較,可以2K分辨率下很難超過200W功耗,TGP 220W已經足夠GeForce RTX 4070 SUPER使用。
DLSS 3.5超進化
如開頭所言,GeForce RTX 4070 SUPER性能提升源自於核心數量增加以及更大的緩存設計。特別是GeForce RTX 4070 SUPER的L2緩存達到了與GeForce RTX 4070 Ti相同的48MB,並且CUDA Core數量,第三代RT Core和第四代Tensor Core數量都接近GeForce RTX 4070 Ti。
在探究GeForce RTX 4070 SUPER的表現之前,慣例放出測試平臺,包括最新的Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2,並配以Thermaltake TPI RGB PLUS 1250W電源作爲支持,在GPU對比上則使用GeForce RTX 4070、GeForce RTX 3070 Ti、GeForce RTX 4070 Ti等GPU作爲參考。
在基礎性能測試中,主要參考檢測DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
GeForce RTX 4070 SUPER距離GeForce RTX 4070 Ti基準測試相差性能只有4%到8%之間,同時GeForce RTX 4070 SUPER比GeForce RTX 4070快了15%到23%,GeForce RTX 4070 SUPER也比GeForce RTX 3070 Ti快了26%到40%。這意味着GeForce RTX 4070 SUPER實際性能表現高於RTX 3090,同時功耗只需要220W,效率非常高。
特別是DLSS 3和DLSS 3.5以後版本在GeForce RTX 40系列上的應用,讓GeForce RTX 4070 SUPER的效率得到進一步的提升。這得益於第四代Tensor Core性能提升幅度巨大,包括的FP16、BF16、TF32、INT8、INT4性能相對前一代提升兩倍以上,並支持商業Hopper GPU架構中出現的FP8 Transformer Engine。並且輔以光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更爲立體的分析方式,讓GPU實際執行過程壓縮到原本的 1/8,更多的工作由DLSS 3及以後的版本完成。
而DLSS 3.5更近一部,它是一套基於AI,讓畫質和幀率同時提升的解決方案,同時包含DLSS幀生成(FG)與光線重建(RR, Ray Reconstruction)技術搭配,再加上超分辨率(Super Resolution)、DLAA、幀生成(Frame Generation)多種技術融合,讓遊戲效率表現更爲突出。
在理論測試中,我們先引用3DMark DLSS 3功能測試作爲參考,能夠看出GeForce RTX 4070 SUPER的DLSS表現要比GeForce RTX 3070 Ti高出了115%,比GeForce RTX 4070高出了15%。
遊戲測試部分,我們以近期即將上線的多人武俠開放世界RPG遊戲《燕雲十六聲》作爲例子,這款遊戲來自Everstone工作室,主打單人模式和多人模式下的劇情、畫面沉浸體驗,僅在黃鐘測試階段便廣受好評,仍處在調試階段的遊戲畫面已經達到了相當精細的效果。
《燕雲十六聲》無疑成爲GeForce RTX 4070 SUPER理想的測試場景之一。爲了保證遊戲流暢性,《燕雲十六聲》會根據GPU性能鎖定畫質等級,GeForce RTX 4070 SUPER最高可以開啓超高檔位。這時候在4K分辨率下,不做任何設置的GeForce RTX 4070 SUPER已經相當能打,但顯然這是遠遠不夠的,重點便是開啓DLSS 3。
先說畫質,這裏遠處山林在柔霧下光影的細節處理,DLSS 3開啓之後過度變得更爲自然。
再比如光照下屋檐的光斑處理,以及同一場景中柔霧展示,開啓DLSS 3後的《燕雲十六聲》多了意境感。
當然更重要的還是幀率提升,4K分辨率超高畫質下,GeForce RTX 4070 SUPER可以讓遊戲的幀率維持在接近60FPS的程度,而一旦開啓DLSS,引入DLSS幀生成(FG),情況立馬不一樣了,幀率一下提升了170%。GeForce RTX 4070提升幅度也很明顯,但實際表現仍然與GeForce RTX 4070 SUPER有20FPS,超過15%的差距。
這裏我們原本想進一步對GeForce RTX 3070 Ti和GeForce RTX 2070 Super進行進一步測試,但無奈測試版本中的遊戲畫質等級被限制,因此沒有參考的價值了。
DLSS 3另一個好處就是Reflex的加入讓遊戲響應延遲的進一步降低,在同一場景下,可以看到GeForce RTX 4070 SUPER不僅讓遊戲獲得了更高的遊戲幀率,延遲也更低,也進而提升了遊戲擊打的準確度,對於《燕雲十六聲》這款武俠動作遊戲而言,無疑顯得更爲重要。
與此同時,我們也做了《無畏契約》《堡壘之夜》和《APEX英雄》的系統響應延遲測試,GeForce RTX 4070 SUPER與DLSS 3.5雙重加持下,甚至可以讓遊戲的延遲部分接近10ms左右。可見GeForce RTX 4070 SUPER已經能夠很好的承擔競技GPU的工作。
在更多的遊戲測試中,我們以2K分辨率最高遊戲畫質作爲參考,分別對比RTX 2070,RTX 3070和RTX 3090,差距感一下子就拉滿了,GeForce RTX 4070 SUPER對比RTX 2070提升最多甚至可以有800%,而對比GeForce RTX 3070,表現則可以達到55%至200%以上。
即便是對抗當年卡皇RTX 3090,GeForce RTX 4070 SUPER也佔了不小優勢,DLSS 2場景表現與卡皇相當,而DLSS 3加持之後,最高也能拉出100%以上的差距。
下圖表格中RT代表光線追蹤Ray Traced,PT代表更高階的路徑追蹤Path Traced,RR則是在DLSS 3.5中開啓了光線重建Ray Reconstruction。
同時在實際遊戲中,DLSS 3.5帶來的畫質變化也是質的攀升。例如在《賽博朋克2077:往日之影》中,早期車燈照射不準確的效果被修正,原因是之前人工調整降噪器的採樣不準確,現在交予DLSS 3.5的AI不僅節省了調整的成本,效果也非常出色。特別在廣告牌、霓虹燈反射的積水路面上,有了更準確的表達。
另外在《心靈殺手2》也能夠明顯感受到DLSS光線重建帶來質的變換。以第二章節開始的咖啡廳櫥窗爲例,如果關閉DLSS 3.5,就會在玻璃上看到明顯的噪點,窗戶內人物衣服的二次反射,也不會投影到櫥窗中,缺少了真實玻璃通透的質感。
AI創作很能打
有意思的是,遊戲表現只屬於GeForce RTX 40系列GPU性能表現的一部分,利用GPU的對AI加速的優勢,以及本地運行的大模型,PC已經能夠很好的在離線狀態下具備完善的AIGC生成式內容創作。不僅如此,NVIDIA Studio加持下,常見的Adobe等專業內容創作軟件,不僅也具備AI性能表現,在日常內容創作中性能也被很好的提升。
這裏先進入喜聞樂見的Stable Diffusion生成式圖像創作。隨着Stable Diffusion SDXL發佈,相比Stable Diffusion 1.5版本,SDXL模型擴大了3倍,圖像的生成質量向上猛升了一個臺階。
圖像質量的提升代價是需要更長時間的出圖,自然就敦促更多針對硬件加速優化的誕生。NVIDIA針對Stable Diffusion Web UI 的TensorRT 加速插件就是其中之一,它可以讓GeForce RTX在AI性能提升2倍率,並大幅提升Stable Diffusion出圖效率。重點是對於消費者而言,這些都是免費的,只要記得將軟件更新即可。
在配置完Stable Diffusion Web UI + TensorRT之後,這次我們用更短的語言描述生成10張分辨率爲1024x1024的星際航行圖片,每次運算1張圖片,即總共執行10次,採樣步數設置爲50。
文字描述部分的神祕小代碼參考如下:
epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting
可以看到,在不到2分鐘的時間內,GeForce RTX 4070 SUPER完成了10張質量非常高的圖片創作,12GB GDDR6X被完全使用,精細度高下立判,輕鬆甩出Stable Diffusion 1.5一條街。
Stable Diffusion SDXL + TensorRT
Stable Diffusion 1.5
這裏我們通過記錄時間,推算出每分鐘推算圖片效率,參考公式爲60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。通過對比可以看出,在768x768分辨率下,GeForce RTX 4070 SUPER表現出的戰鬥力已經很接近RTX 4070 Ti的水平了。
如果Stable Diffusion SDXL生成圖像還顯得有些抽象,D5渲染器利用DLSS 3.5加速效果無疑更爲直接。在最新版本的D5 Rander中,利用DLSS 3.5光線重建(Ray Reconstruction, RR)完成AI渲染加強,不需等待即可看到最終的展示效果。換而言之,在諸如《賽博朋克2077》DLSS 3.5中體驗到的流暢感,在D5 Rander中也能感受到。
值得注意,在D5渲染器中,DLSS 3.5使用了比DLSS 3多5倍的數據訓練,因此也可以更好的識別光線追蹤效果,在時間、空間數據中做出更合理的判斷,從而實現高效率的擴展。
在D5渲染器中開啓DLSS 3.5的方法很簡單,只需要在菜單中找到DLSS 3.5選項,勾選所有的子選項,就能直接過得DLSS 3.5帶來的暢快感覺。
其中在畫質上,搭配光線重建的DLSS 3.5帶來的效果非常明顯,例如反光質感金屬裝飾杆噪點被處理得很通透。再例如窗戶的透明與折射過度變得更爲自然。
與此同時,D5渲染器的實時幀率在DLSS 3.5加持下得到明顯提升,這裏用GeForce RTX 4070 SUPER與RTX 3070進行對比,由於RTX 3070不支持幀生成,D5渲染器的場景幀率只有12FPS,但在GeForce RTX 4070 SUPER中,開啓DLSS 3.5後幀率提升至將近40FPS,性能提升輕鬆超過200%了。
AI測試部分我們利用了ON1 Resize AI 2022對圖片分辨率進行提升,在五個場景中進行比較,並記錄平均時間,時間越少說明AI性能越強。可以看出GeForce RTX 4070 SUPER相對GeForce RTX 4070節省了8%的時間,相對GeForce RTX 3070 Ti則節省了50%的時間,效率非常高。
SPECviewperf特點是可測量在OpenGL和Direct X API下運行的系統的3D圖形性能,專業軟件包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks,憑藉着幾乎完整的AD104核心,GeForce RTX 4070 SUPER表現出的常規性能也非常突出。
Octane Render RTX則是用來測試GPU的光線追蹤性能表現,在複雜場景下考驗GPU每秒產生的樣本率,GeForce RTX 4070 SUPER相對GeForce RTX 4070提升4%,相對GeForce RTX 3070 Ti提升51%。
在V-Ray 5 Benchmark中,會分別對CUDA Core和RTX進行檢測,藉助更多的CUDA Core數量,GeForce RTX 4070 SUPER對比RTX 4070也有非常明顯的優勢,提升達到25%以上,相對RTX 3070 Ti提升更是達到66%以上。
Blender Benchmark主要檢測了Moster、Junkshop、Classroom三個輸出場景,這裏也可以看到GeForce RTX 4070 SUPER提升達到5%左右,相對RTX 3070 Ti提升達到60%以上。
寫在最後:用SUPER定義性價比
無論遊戲、AI創作還是專業軟件加速,GeForce RTX 4070 SUPER都給留下了讓人相當深刻的印象,原因也很簡單,在與GeForce RTX 4070定價相當的前提下,展現出來的性能與GeForce RTX 4070 Ti相當,並且能夠在大部分場景中戰勝上一代卡皇RTX 3090,配合只有220W TGP,無論效能、性價比,GeForce RTX 4070 SUPER表現都非常出色。
可以這麼說,GeForce RTX 4070 SUPER展示了SUPER系列所達到的性價比高度。特別是在NVIDIA軟件與驅動不斷升級和加持下,通過DLSS 3.5讓遊戲獲得更好的畫質和流暢體驗,或者搭配TensorRT高質量的加速Stable Diffusion SDXL,再或者光線重構給D5渲染器帶來實際使用時質的提升,這都是GeForce RTX 30系列以前GPU所無法比擬的。
重點在於,如果你已經是GeForce RTX 40系列用戶,那麼恭喜你,這篇評測中提到的所有關於GPU的新功能和AI加速,都已經可以免費獲得。而如果是GeForce RTX 30系列以前的用戶,比如GeForce RTX 3070 Ti,GeForce RTX 2070 SUPER的玩家們,不需要猶豫,GeForce RTX 4070 SUPER就是當下所能買到最具性價比的GeForce RTX 40系列GPU。
最後,英偉達GeForce RTX 40 Super系列現已上市,請到京東DIY Super超能年貨節上選購GeForce RTX 4070 Super/80 Super 公版和合作夥伴顯卡。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com