在NVIDIA的定義中,GeForce RTX SUPER系列的定位相當於版本進階。與Ti系列作爲不同數字型號之間產品線完善不同,SUPER就是衝着提升對應型號性能與性價比去的。在CES 2024上首次展出的GeForce RTX 4070 SUPER就是其中一個很好的例子,不僅帶來更高的性價比,生成式AI創作上也得到進一步創新,戰鬥力十足。
![]()
更確切的說,GeForce RTX 4070 SUPER是當下最有機會進入教科書的產品之一,同樣是基於AD104打造,但核心數量已然向GeForce RTX 4070 Ti靠攏,包括7168個CUDA Core,224個第四代Tensor Core和56個第三代RT Core,重點是L2緩存一步拉滿至與GeForce RTX 4070 Ti相同的48MB,誠意已然拉滿。
![]()
重點是GeForce RTX 4070 SUPER的發佈定價與GeForce RTX 4070發佈之初相同的599美元,這意味着GeForce RTX 4070 SUPER在相同的價格策略下擁有無限接近於GeForce RTX 4070 Ti的表現,特別是當下熱門的AI加速,DLSS 3.5遊戲,以及生成式AI和NVIDIA Studio特性,在GeForce RTX 4070 SUPER上都應該會着高性價比且強勢的表現。
那麼事實真的如此?按照慣例,在性能解禁的當下,讓我們奉上NVIDIA GeForce RTX 4070 SUPER Founders Edition的首發評測。
![]()
AD104-350新範式
AD104擁有廣泛且成熟的產品線陣營,GeForce RTX 4070,GeForce RTX 4070 Ti,移動端的GeForce RTX 4080,以及專業領域的RTX 4000 Ada Generation,RTX 4500 Ada Generation都是基於AD104打造的。
![]()
GeForce RTX 4070 SUPER所採用的AD104-350-A1已經非常接近於完全體的AD104,同時繼承了所有AD102、AD103上的功能特性,包括對DirectX 12 Ultimate很好的支持,芯片面積達到294mm2,晶體管數量358億個,採用臺積電4N NVIDIA定製工藝,並圍繞第三代RT Core,第四代Tensor Core以及大量核心所構建起來的芯片。
![]()
我們知道Ada Lovelace架構GPU中包含了若干個GPC(Graphics Processing Clusters,圖形處理集羣),GPC下包含若干個TPC(Texture Processing Clusters,紋理處理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每個GPC之間包含的TPC數量相等,當GPU進行定位區分的時候再進行GPC、TPC的物理屏蔽實現。
完整的AD104包含5個GPC,每個GPC包含6組TPC,每組TPC包含2個流式多處理器(Streaming Multiprocessors,SM)。其中每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。
![]()
每個SM下的128個CUDA Core隨處理塊分成4組,每組CUDA由16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core組成。同時每個SM還包含4個第四代Tensor Core,1個第三代RT Core,成爲後續遊戲實時光線追蹤和DLSS 3.5性能提升的重要前提。
GeForce RTX 4070 SUPER的厲害之處在於,它與GeForce RTX 4070 Ti相當接近,僅在GeForce RTX 4070 Ti的基礎上減少2個TPC,即4個SM,最終擁有56組SM,7168個CUDA Core,224個第四代Tensor Core,56個第三代RT Core,224個紋理單元,80個ROP,並搭配192-bit 12GB GDDR6X。
![]()
在緩存方面GeForce RTX 4070 SUPER也毫不吝嗇,配合56組SM,每組SM搭配128KB L1緩存,因此L1緩存容量達到了7,168KB,L2緩存則沒有任何減少,達到49,152KB,也就是48MB。
這相對於GeForce RTX 30系列的GPU而言是給非常龐大的數字,就算是上一代旗艦GeForce RTX 3090的L2緩存也不過48MB,GeForce RTX 3070僅有4MB。這意味着GeForce RTX 4070 SUPER的L2緩存是GeForce RTX 3070的12倍,這將爲後續的光線追蹤性能發揮、AI加速奠定了很好的基礎。
具體對比表格參考如下:
![]()
黑化版的FE
與GeForce RTX 4070 Founders Edition一樣,GeForce RTX 4070 SUPER Founders Edition也只佔2個槽位,長度也與RTX 4070 FE相同,可以輕鬆放進ATX機箱或者更小的機型中。
![]()
在整體的設計元素上,GeForce RTX 4070 SUPER Founders Edition偏向於深黑色,包括固定中框的處理使用了深黑色外觀,上手來看實現的更高級了。散熱設計則與RTX 4070 FE相似,在GPU貼合底座使用了銅基座設計,並通過4根熱管將熱量快速擴展到鋁製散熱片中,同時雙軸風扇也提供了更好的氣體流動性,能夠提供比GeForce RTX 3070 Ti FE更強的20%氣體流動提升。
![]()
特別是針對12GB GDDR6X的發熱量,GeForce RTX 4070 SUPER Founders Edition使用了8層PCB板以確保給GPU和vRAM提供乾淨的電流,並使用了6相電源供電設計,其中2相被設計爲專爲21Gbps的GDDR6X供電。
![]()
在接口設計上,GeForce RTX 4070 SUPER Founders Edition供電使用了16pin(12VHPWR)接口設計,隨機包裝配送了2x8pin轉接線。輸出接口則包括3個DisplayPort 1.4a和1個HDMI 2.1接口。
![]()
雖然GeForce RTX 4070 SUPER Founders Edition的硬件參數已經接近於RTX 4070 Ti,但TGP僅需要220W,因此在壓力測試中GeForce RTX 4070 SUPER Founders Edition的散熱模組能夠輕鬆的穩定住GPU和顯存的發熱量。例如在壓力測試下GPU溫度最高爲68℃,通過紅外線測試可以看到GeForce RTX 4070 SUPER Founders Edition表面最高溫度在PCB部分,爲67.7℃。
![]()
與此同時,GeForce RTX 4070 SUPER Founders Edition的遊戲功耗表現也非常出色,這裏我們對5款遊戲的2K分辨率最高畫質下RTX 4070 SUPER實際功耗進行比較,可以2K分辨率下很難超過200W功耗,TGP 220W已經足夠GeForce RTX 4070 SUPER使用。
![]()
DLSS 3.5超進化
如開頭所言,GeForce RTX 4070 SUPER性能提升源自於核心數量增加以及更大的緩存設計。特別是GeForce RTX 4070 SUPER的L2緩存達到了與GeForce RTX 4070 Ti相同的48MB,並且CUDA Core數量,第三代RT Core和第四代Tensor Core數量都接近GeForce RTX 4070 Ti。
![]()
在探究GeForce RTX 4070 SUPER的表現之前,慣例放出測試平臺,包括最新的Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2,並配以Thermaltake TPI RGB PLUS 1250W電源作爲支持,在GPU對比上則使用GeForce RTX 4070、GeForce RTX 3070 Ti、GeForce RTX 4070 Ti等GPU作爲參考。
![]()
在基礎性能測試中,主要參考檢測DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
GeForce RTX 4070 SUPER距離GeForce RTX 4070 Ti基準測試相差性能只有4%到8%之間,同時GeForce RTX 4070 SUPER比GeForce RTX 4070快了15%到23%,GeForce RTX 4070 SUPER也比GeForce RTX 3070 Ti快了26%到40%。這意味着GeForce RTX 4070 SUPER實際性能表現高於RTX 3090,同時功耗只需要220W,效率非常高。
![]()
特別是DLSS 3和DLSS 3.5以後版本在GeForce RTX 40系列上的應用,讓GeForce RTX 4070 SUPER的效率得到進一步的提升。這得益於第四代Tensor Core性能提升幅度巨大,包括的FP16、BF16、TF32、INT8、INT4性能相對前一代提升兩倍以上,並支持商業Hopper GPU架構中出現的FP8 Transformer Engine。並且輔以光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更爲立體的分析方式,讓GPU實際執行過程壓縮到原本的 1/8,更多的工作由DLSS 3及以後的版本完成。
![]()
而DLSS 3.5更近一部,它是一套基於AI,讓畫質和幀率同時提升的解決方案,同時包含DLSS幀生成(FG)與光線重建(RR, Ray Reconstruction)技術搭配,再加上超分辨率(Super Resolution)、DLAA、幀生成(Frame Generation)多種技術融合,讓遊戲效率表現更爲突出。
在理論測試中,我們先引用3DMark DLSS 3功能測試作爲參考,能夠看出GeForce RTX 4070 SUPER的DLSS表現要比GeForce RTX 3070 Ti高出了115%,比GeForce RTX 4070高出了15%。
![]()
遊戲測試部分,我們以近期即將上線的多人武俠開放世界RPG遊戲《燕雲十六聲》作爲例子,這款遊戲來自Everstone工作室,主打單人模式和多人模式下的劇情、畫面沉浸體驗,僅在黃鐘測試階段便廣受好評,仍處在調試階段的遊戲畫面已經達到了相當精細的效果。
![]()
《燕雲十六聲》無疑成爲GeForce RTX 4070 SUPER理想的測試場景之一。爲了保證遊戲流暢性,《燕雲十六聲》會根據GPU性能鎖定畫質等級,GeForce RTX 4070 SUPER最高可以開啓超高檔位。這時候在4K分辨率下,不做任何設置的GeForce RTX 4070 SUPER已經相當能打,但顯然這是遠遠不夠的,重點便是開啓DLSS 3。
先說畫質,這裏遠處山林在柔霧下光影的細節處理,DLSS 3開啓之後過度變得更爲自然。
![]()
![]()
再比如光照下屋檐的光斑處理,以及同一場景中柔霧展示,開啓DLSS 3後的《燕雲十六聲》多了意境感。
![]()
![]()
當然更重要的還是幀率提升,4K分辨率超高畫質下,GeForce RTX 4070 SUPER可以讓遊戲的幀率維持在接近60FPS的程度,而一旦開啓DLSS,引入DLSS幀生成(FG),情況立馬不一樣了,幀率一下提升了170%。GeForce RTX 4070提升幅度也很明顯,但實際表現仍然與GeForce RTX 4070 SUPER有20FPS,超過15%的差距。
![]()
這裏我們原本想進一步對GeForce RTX 3070 Ti和GeForce RTX 2070 Super進行進一步測試,但無奈測試版本中的遊戲畫質等級被限制,因此沒有參考的價值了。
![]()
DLSS 3另一個好處就是Reflex的加入讓遊戲響應延遲的進一步降低,在同一場景下,可以看到GeForce RTX 4070 SUPER不僅讓遊戲獲得了更高的遊戲幀率,延遲也更低,也進而提升了遊戲擊打的準確度,對於《燕雲十六聲》這款武俠動作遊戲而言,無疑顯得更爲重要。
![]()
與此同時,我們也做了《無畏契約》《堡壘之夜》和《APEX英雄》的系統響應延遲測試,GeForce RTX 4070 SUPER與DLSS 3.5雙重加持下,甚至可以讓遊戲的延遲部分接近10ms左右。可見GeForce RTX 4070 SUPER已經能夠很好的承擔競技GPU的工作。
![]()
在更多的遊戲測試中,我們以2K分辨率最高遊戲畫質作爲參考,分別對比RTX 2070,RTX 3070和RTX 3090,差距感一下子就拉滿了,GeForce RTX 4070 SUPER對比RTX 2070提升最多甚至可以有800%,而對比GeForce RTX 3070,表現則可以達到55%至200%以上。
即便是對抗當年卡皇RTX 3090,GeForce RTX 4070 SUPER也佔了不小優勢,DLSS 2場景表現與卡皇相當,而DLSS 3加持之後,最高也能拉出100%以上的差距。
下圖表格中RT代表光線追蹤Ray Traced,PT代表更高階的路徑追蹤Path Traced,RR則是在DLSS 3.5中開啓了光線重建Ray Reconstruction。
![]()
![]()
![]()
![]()
同時在實際遊戲中,DLSS 3.5帶來的畫質變化也是質的攀升。例如在《賽博朋克2077:往日之影》中,早期車燈照射不準確的效果被修正,原因是之前人工調整降噪器的採樣不準確,現在交予DLSS 3.5的AI不僅節省了調整的成本,效果也非常出色。特別在廣告牌、霓虹燈反射的積水路面上,有了更準確的表達。
![]()
![]()
另外在《心靈殺手2》也能夠明顯感受到DLSS光線重建帶來質的變換。以第二章節開始的咖啡廳櫥窗爲例,如果關閉DLSS 3.5,就會在玻璃上看到明顯的噪點,窗戶內人物衣服的二次反射,也不會投影到櫥窗中,缺少了真實玻璃通透的質感。
![]()
![]()
AI創作很能打
有意思的是,遊戲表現只屬於GeForce RTX 40系列GPU性能表現的一部分,利用GPU的對AI加速的優勢,以及本地運行的大模型,PC已經能夠很好的在離線狀態下具備完善的AIGC生成式內容創作。不僅如此,NVIDIA Studio加持下,常見的Adobe等專業內容創作軟件,不僅也具備AI性能表現,在日常內容創作中性能也被很好的提升。
![]()
這裏先進入喜聞樂見的Stable Diffusion生成式圖像創作。隨着Stable Diffusion SDXL發佈,相比Stable Diffusion 1.5版本,SDXL模型擴大了3倍,圖像的生成質量向上猛升了一個臺階。
![]()
圖像質量的提升代價是需要更長時間的出圖,自然就敦促更多針對硬件加速優化的誕生。NVIDIA針對Stable Diffusion Web UI 的TensorRT 加速插件就是其中之一,它可以讓GeForce RTX在AI性能提升2倍率,並大幅提升Stable Diffusion出圖效率。重點是對於消費者而言,這些都是免費的,只要記得將軟件更新即可。
在配置完Stable Diffusion Web UI + TensorRT之後,這次我們用更短的語言描述生成10張分辨率爲1024x1024的星際航行圖片,每次運算1張圖片,即總共執行10次,採樣步數設置爲50。
文字描述部分的神祕小代碼參考如下:
epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting
![]()
![]()
可以看到,在不到2分鐘的時間內,GeForce RTX 4070 SUPER完成了10張質量非常高的圖片創作,12GB GDDR6X被完全使用,精細度高下立判,輕鬆甩出Stable Diffusion 1.5一條街。
![]()
Stable Diffusion SDXL + TensorRT
![]()
Stable Diffusion 1.5
這裏我們通過記錄時間,推算出每分鐘推算圖片效率,參考公式爲60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。通過對比可以看出,在768x768分辨率下,GeForce RTX 4070 SUPER表現出的戰鬥力已經很接近RTX 4070 Ti的水平了。
![]()
如果Stable Diffusion SDXL生成圖像還顯得有些抽象,D5渲染器利用DLSS 3.5加速效果無疑更爲直接。在最新版本的D5 Rander中,利用DLSS 3.5光線重建(Ray Reconstruction, RR)完成AI渲染加強,不需等待即可看到最終的展示效果。換而言之,在諸如《賽博朋克2077》DLSS 3.5中體驗到的流暢感,在D5 Rander中也能感受到。
值得注意,在D5渲染器中,DLSS 3.5使用了比DLSS 3多5倍的數據訓練,因此也可以更好的識別光線追蹤效果,在時間、空間數據中做出更合理的判斷,從而實現高效率的擴展。
![]()
在D5渲染器中開啓DLSS 3.5的方法很簡單,只需要在菜單中找到DLSS 3.5選項,勾選所有的子選項,就能直接過得DLSS 3.5帶來的暢快感覺。
![]()
其中在畫質上,搭配光線重建的DLSS 3.5帶來的效果非常明顯,例如反光質感金屬裝飾杆噪點被處理得很通透。再例如窗戶的透明與折射過度變得更爲自然。
![]()
![]()
![]()
![]()
與此同時,D5渲染器的實時幀率在DLSS 3.5加持下得到明顯提升,這裏用GeForce RTX 4070 SUPER與RTX 3070進行對比,由於RTX 3070不支持幀生成,D5渲染器的場景幀率只有12FPS,但在GeForce RTX 4070 SUPER中,開啓DLSS 3.5後幀率提升至將近40FPS,性能提升輕鬆超過200%了。
![]()
AI測試部分我們利用了ON1 Resize AI 2022對圖片分辨率進行提升,在五個場景中進行比較,並記錄平均時間,時間越少說明AI性能越強。可以看出GeForce RTX 4070 SUPER相對GeForce RTX 4070節省了8%的時間,相對GeForce RTX 3070 Ti則節省了50%的時間,效率非常高。
![]()
![]()
SPECviewperf特點是可測量在OpenGL和Direct X API下運行的系統的3D圖形性能,專業軟件包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks,憑藉着幾乎完整的AD104核心,GeForce RTX 4070 SUPER表現出的常規性能也非常突出。
![]()
Octane Render RTX則是用來測試GPU的光線追蹤性能表現,在複雜場景下考驗GPU每秒產生的樣本率,GeForce RTX 4070 SUPER相對GeForce RTX 4070提升4%,相對GeForce RTX 3070 Ti提升51%。
![]()
在V-Ray 5 Benchmark中,會分別對CUDA Core和RTX進行檢測,藉助更多的CUDA Core數量,GeForce RTX 4070 SUPER對比RTX 4070也有非常明顯的優勢,提升達到25%以上,相對RTX 3070 Ti提升更是達到66%以上。
![]()
Blender Benchmark主要檢測了Moster、Junkshop、Classroom三個輸出場景,這裏也可以看到GeForce RTX 4070 SUPER提升達到5%左右,相對RTX 3070 Ti提升達到60%以上。
![]()
寫在最後:用SUPER定義性價比
無論遊戲、AI創作還是專業軟件加速,GeForce RTX 4070 SUPER都給留下了讓人相當深刻的印象,原因也很簡單,在與GeForce RTX 4070定價相當的前提下,展現出來的性能與GeForce RTX 4070 Ti相當,並且能夠在大部分場景中戰勝上一代卡皇RTX 3090,配合只有220W TGP,無論效能、性價比,GeForce RTX 4070 SUPER表現都非常出色。
![]()
可以這麼說,GeForce RTX 4070 SUPER展示了SUPER系列所達到的性價比高度。特別是在NVIDIA軟件與驅動不斷升級和加持下,通過DLSS 3.5讓遊戲獲得更好的畫質和流暢體驗,或者搭配TensorRT高質量的加速Stable Diffusion SDXL,再或者光線重構給D5渲染器帶來實際使用時質的提升,這都是GeForce RTX 30系列以前GPU所無法比擬的。
![]()
重點在於,如果你已經是GeForce RTX 40系列用戶,那麼恭喜你,這篇評測中提到的所有關於GPU的新功能和AI加速,都已經可以免費獲得。而如果是GeForce RTX 30系列以前的用戶,比如GeForce RTX 3070 Ti,GeForce RTX 2070 SUPER的玩家們,不需要猶豫,GeForce RTX 4070 SUPER就是當下所能買到最具性價比的GeForce RTX 40系列GPU。
最後,英偉達GeForce RTX 40 Super系列現已上市,請到京東DIY Super超能年貨節上選購GeForce RTX 4070 Super/80 Super 公版和合作夥伴顯卡。
![]()
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
