由於產品線佈局的變換,GeForce RTX 4070 Ti一不小心成了70系的首發,但論價格和定位而言,不含Ti的GeForce RTX 4070在當下更具吸引力,特別是萬元以內臺式機,當下急缺一款能確保2K分辨率光追最高畫質下輕鬆越過100FPS門檻的產品。而在歷經GeForce RTX 4090到RTX 4070 Ti補全,以及RTX 40全系Laptop GPU登錄筆記本後,我們終於迎來了NVIDIA GeForce RTX 4070的登場,正式邁向探索GeForce RTX 40系列主流體驗之路。
![]()
那麼GeForce RTX 4070將會通過什麼樣的表現回應玩家們的期待,在遊戲,內容製作,以及時下大熱的AI創作上的性能表現如何,4799元的定價又能否與性能配合處讓人滿意的性價比?隨着性能解禁,現在就讓我們奉上公版NVIDIA GeForce RTX 4070 Founders Edition首發評測。
![]()
再遇AD104
沒有想到AD104是我們近期遇到最多的GPU型號,從GeForce RTX 4070 Ti到GeForce RTX 4080 Laptop GPU均源自對AD104針對細分定位的修改。
AD104與同門師兄一樣,採用臺積電4N英偉達定製工藝打造,芯片尺寸295mm²,晶體管數量爲358億個,相對AD102而言屬於中型芯片。因此AD104也保留了Ada Lovelace架構的完整結構,即GPU中包含了若干個GPC(Graphics Processing Clusters,圖形處理集羣),GPC下包含若干個TPC(Texture Processing Clusters,紋理處理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每個GPC之間包含的TPC數量相等,當GPU進行定位區分的時候再進行GPC、TPC的物理屏蔽實現。
![]()
完整的AD104包含5個GPC,每個GPC包含6組TPC,每組TPC包含2個流式多處理器(Streaming Multiprocessors,SM)。
SM是可以看成諸多核心的集合體,從Maxwell架構開始引入了處理塊(Sub-Core)概念。每個SM包含4個處理塊,每個處理塊包含1個64KB寄存器堆,1個L0指令緩存,1個Warp調度器,1個調度單元,4個加載/存儲單元,1個特殊功能單元(Special Function Unit,SFU)用於執行超越函數指令(比如正弦、餘弦、倒數、平方根等)和圖形差值算法指令。每個SM下的128個CUDA Core隨處理塊分成4組,每組CUDA由16個專門用於FP32的CUDA Core,16個可以在FP32和INT32之間切換的CUDA Core組成。
![]()
更重要的是,由於工藝和架構的提升,Ada Lovelace架構擁有龐大的L2緩存設計,根據定位的不同,GeForce RTX 40系列相對上一代GeForce RTX 30系列在GPU L2緩存上擁有數倍乃至十幾倍的容量提升,這是相當誇張的。
更大的L2緩存有助於提高隨機存取的命中率,而更快的L2緩存能提升運算單元的效率。AD104中所有GPC都需要通過L2緩存完成所有訪存操作,因此龐大的L2緩存搭配每個SM下均包含4個第四代Tensor Core,1個第三代RT Core,成爲後續遊戲實時光線追蹤和DLSS 3性能提升的重要前提。
![]()
讓我們把目光放到GeForce RTX 4070。GeForce RTX 4070使用的AD104 GPU版爲AD104-250-A1,採用了4個GPC結構,並在其中的1個GPC中屏蔽了1個TPC,從而獲得了23個TPC,46個SM,共計擁有5888個CUDA Core,184個第四代Tensor Core和46個第三代RT Core,以及184個紋理單元和64個ROP Units。
值得注意的是,在內存結構上,GeForce RTX 4070同樣擁有6個32-bit內存控制器組成的192-bit內存接口,並搭配12GB GDDR6X顯存,顯存帶寬與GeForce RTX 4070 Ti是相同的504GB/s。
![]()
唯獨可惜爲了與Ti進行區分,在GeForce RTX 4070視頻編解碼引擎上僅使用了1個第八代NVENC和1個第五代NVDEC,雖然同樣擁有12GB顯存,但無法開啓雙AV1編碼器。這樣的設計主要用於區分不同定位GPU之間的專業創作性能,例如專業版的AD104中會給與2個NVENC和4個NVDEC以加速視頻編解碼性能,但對於遊戲玩家而言,這樣的設計變化在遊戲中是不會感受出來的。
至此,我們基本掌握了GeForce RTX 4070的大致結構,作爲參考,這裏羅列出歷代70系列的大致規格作爲對比。
![]()
迴歸小巧Founders Edition
迴歸到GeForce RTX 4070 Founders Edition本體。在看慣了三槽的RTX 40系列,雙槽的GeForce RTX 4070 Founders Edition顯得格外小巧。事實上也確實如此,GeForce RTX 4070 Founders Edition不僅厚度縮減到了2槽,長度也控制到了336mm,可以輕鬆安裝到標準ATX機箱,或者諸如NUC Extreme這樣的小型化機箱中。
![]()
同時我們也看到GeForce RTX 4070對功耗進行了控制,以進一步提升能耗比,僅有200W的TGP無論相比GeForce RTX 2070 Super的215W還是GeForce RTX 3070 Ti的290W都小了不少。因此,即便GeForce RTX 4070 Founders Edition使用了16pin(12VHPWR)接口設計,但隨機包裝中僅配送了2x8pin轉接線,可見對功耗需求不高。
![]()
作爲Founders Edition,GeForce RTX 4070 Founders Edition同樣也繼承了前輩們的很多傳統,比如使用了與旗艦GeForce RTX 4090 Founders Edition相同的設計元素、前後雙軸風扇、鏤空的壓鑄件鋁製散熱片設計。相對上一代GeForce RTX 3070 Founders Edition,RTX 4070在散熱結構上也更爲緊湊,並在GPU貼合底座使用了銅基座設計,並通過4根熱管將熱量快速擴展到鋁製散熱片中,以提升冷卻性能。
![]()
不僅如此,GeForce RTX 4070 Founders Edition的雙軸風扇也提供了更好的氣體流動性,能夠提供比GeForce RTX 3070 Ti FE更強的20%氣體流動提升。
![]()
同樣,12GB GDDR6X的耗電與發熱量是不能忽視的。GeForce RTX 4070 Founders Edition使用了8層PCB板以確保給GPU和vRAM提供乾淨的店裏,並使用了6相電源供電設計,其中2相被設計爲專爲21Gbps的GDDR6X供電。
![]()
在接口配置上,GeForce RTX 4070 Founders Edition與同門師兄相同,包括3個DisplayPort 1.4a和1個HDMI 2.1接口。
![]()
在實際的壓力測試狀態下,可以看到GeForce RTX 4070 Founders Edition GPU的最高溫度爲65℃,最高功耗爲200W。如果這時候用紅外線進行檢測,可以發現在室溫23℃的環境下,最高溫度64.3℃,GeForce RTX 4070 Founders Edition表面溫度參考如下。
![]()
當然在實際遊戲體驗中,GeForce RTX 4070 Founders Edition的實際功耗會低於TGP,這裏我們對5款遊戲的1080p、2K、4K分辨率最高畫質下RTX 4070實際功耗進行比較,可以看到2K分辨率下的功耗表現不到190W,唯有4K最高畫質下更容易接近RTX 4070的TGP規格。由此也證明了Ada Lovelace架構的能耗比上的優越性。
![]()
2K遊戲無敵手
解決完散熱和架構的問題,讓我們進入喜聞樂見的跑分環節。照例先搬出我們的測試平臺,這裏爲了確保GeForce RTX 4070性能完全釋放,這裏使用了英特爾Core i9-13900K,七彩虹Colorful CNV DDR5-6000 16GB x2,ROG MAXIMUS Z790 HERO,Thermaltake TPI RGB PLUS 1250W作爲基準,同時也引入GeForce RTX 2070 Super、GeForce RTX 3070 Ti作爲對比。
![]()
![]()
在檢驗DirectX 11和DirectX 12項目中,主要使用3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal進行對比。可以看到GeForce RTX 4070在對比RTX 3070 Ti表現非常明顯,至少有20%的提升,對比RTX 2070 Super,差距更大,平均提升接近90%。
![]()
在主流常見的幾款常規的3A遊戲中,可以看到遊戲的表現與基準軟件測試的預期基本相同,GeForce RTX 4070在對比RTX 3070 Ti的提升大概20%左右,對比RTX 2070 Super提升則可以接近100%。
![]()
而隨着遊戲技術的快速迭代以及NVIDIA的大力推廣,新推出的遊戲重心已經放到了DLSS 3上。DLSS 3是一套包含了提升遊戲幀率、降低系統延遲的完整解決方案。它通過引入光流加速器(Optical Flow Acceleration,OFA)與DLSS相結合的辦法,構建出了一個更爲立體的分析方式,將卷積自編碼器的輸入源擴展到幾個部分,分別是:之前幀與當下幀,由光流加速器生成的光流場、遊戲運動矢量和深度等數據。這時候DLSS 3甚至承擔起渲染過程中7/8的工作,讓CPU和GPU進完成其中1/8的渲染即可,從而節省出大量的計算資源專注到更有用的地方。
![]()
這意味着遊戲一旦支持DLSS 3,那麼效率將是成倍的提升。但也需要注意,DLSS 3運行的前提是GeForce RTX 40的第四代Tensor Core,第三代以及第三代以前Tensor Core僅能支持到DLSS 2.X,即實現DLSS 3的部分功能,幀率提升雖然也很明顯,但幅度沒有DLSS 3來得更爲誇張。
![]()
這裏我們引入3DMark DLSS 2 2K、3DMark DLSS 3 4K、3DMark DLSS 3 8K進行對比。需要注意的是RTX 2070 Super與RTX 3070 Ti均不支持DLSS 3,在測試中不同分辨率均以DLSS 2進行。
這時候我們就能看到GeForce RTX 4070搭配DLSS 3的優越性了,如果對比RTX 3070 Ti,RTX 4070可以提升從80%到450%,而如果對比RTX 2070 Super,幀率更是能夠提升高達157%到929%,DLSS 3在高分辨率的流暢運行差距非常巨大,原因是RTX 3070 Ti和RTX 2070 Super在8K分辨率幀率只有個位數。
![]()
由於GeForce RTX 4070在2K分辨率下有不錯的表現,這裏我們着重在2K分辨率最高畫質下進行測試。目前爲止已經有超過50款遊戲宣佈支持DLSS 3技術,並有超過30款遊戲上市,其中大部分遊戲均爲3A大作。如果算上以往對DLSS支持的遊戲,則已經超過260款。還是那句話,顯卡儘可能買新不買舊。
在實際測試中,可以看到,GeForce RTX 4070相對RTX 3070 Ti提升有20%左右的提升,而相對GeForce RTX 2070 Super,提升則可以來到50%到120%。
![]()
![]()
DLSS 3帶來的另一個厲害之處則是降低系統延遲。DLSS 3在實現AI插幀的同時,勢必會導致系統延遲在一定程度上增加,導致關鍵操作和關鍵幀排在渲染序列尾端。不過NVIDIA在降低系統延遲上已經做了大量的工作,原本獨立於DLSS的Reflex技術直接集成在DLSS 3,也就是遊戲在開啓DLSS 3的同時,Reflex也被默認開啓,而不需要單獨設置。
這裏我們對數款遊戲進行系統延遲檢測,可以看到,在開啓DLSS 3之後,系統延遲可以降低10%到60%,當然也有與之前維持在同一水準的,但可以證明開啓DLSS 3之後不會對玩家的操作響應產生影響,並且還會有較爲明顯的幫助。
![]()
![]()
![]()
高舉AI大旗
AI創作已經成爲我們無法繞過的話題,特別是在GeForce RTX 40系列發佈之後,基於PC本地的深度學習與AI創作變得更爲輕而易舉。比如通過AI快速的創作全新內容,通過簡單的文字描述在本地繪出需要的創作場景圖片,並隨着AI工具交互設計愈發人性化,每個人觸碰AI幾乎變得唾手可得。
這裏我們以Stable Diffusion 2.1爲例作爲參考。Stable Diffusion是2022年推出的深度學習文本到圖像轉變的AICG工具,這套工具由初創公司Stability AI和非營利組織、學術人員共同合作開發,因此它相對需要收費的Midjourney有更好的開放性和擴展性,並提供一系列的插件實現更多功能,比如AI圖片修復、文本提示引導圖像,甚至是圖像翻譯等等,可以預見在未來會不斷融入更強大的功能。
![]()
Stable Diffusion運行的前提是需要至少8GB以上的顯存vRAM和AI性能足夠強勁的GPU進行,否則本地體驗不如直接購買雲端服務來的直接。
這裏我們利用一段固定的文字描述來引導Stable Diffusion 2.1爲我們創建20張符合描述的建築風景圖片。在UI界面中設置GeForce RTX 4070一次同時運算2張圖片,一共運行10次,即20張。每張圖片分辨率爲768x768分辨率,採樣步數設置爲50。
文字描述參考如下:
beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette
順帶說明,如果只使用Core i9-13900K根據文字描述創建其中1張AI圖片,至少需要花費11分鐘以上的時間,因此不再放在評測中比較。
![]()
在對比中,我們使用了GeForce RTX 4070與GeForce RTX 3070 Ti、GeForce RTX 3080 10GB進行參照,記錄下每個GPU花費的時間,並進一步推算出每分鐘生成的圖像效率(Images Per Minute)。
在實際對比中可以看到,GeForce RTX 4070能夠輕鬆實現於GeForce RTX 4080 10GB的性能,並且相比GeForce RTX 3070 Ti提升40%以上,也意味着同樣的成果,可以爲我們節省40%的時間。
![]()
另外一項AI測試則是基於AI提升圖像分辨率的ON1 Resize AI 2022,原理是對低分辨率圖片無損提升至高分辨率圖片,用於巨幅海報輸出,依靠AI性能可以獲得更快的出圖,並計算生成圖片的時間,數值越少意味着效率越高。
![]()
在實際測試中可以看到,GeForce RTX 4070相對GeForce RTX 3080 10GB提升15%以上的效率,而相對GeForce RTX 3070 Ti,效率更是能夠提40%以上。可見GeForce RTX 4070上的第四代Tensor Core搭配大容量L2緩存表現是相當出衆的。
![]()
即使你沒有創作內容的計劃,AI讓視頻清晰化的功能隨着新驅動發佈和GeForce RTX 4070的解禁得到進一步擴展,現在你可以NVIDIA控制面板-調整視頻圖像設置中找到名爲“RTX視頻增強”的選項。顧名思義,這是利用RTX Video Super Resolution (VSR)技術,通過AI、TensorCore來增強視頻播放質量,讓低分辨率視頻在4K分辨率屏幕上獲得更好的顯示效果,以增強視頻觀看體驗。
![]()
這項功能目前也已經開始實裝到4月12日以後更新的VLC播放器中,並且效果立竿見影。這裏我們分別開啓和關閉RTX視頻增強超分辨率選項,並播放一段1080p視頻,抓取兩個視頻的效果。
能夠輕鬆看到VSR ON之後畫面細膩感一下提升了一個檔次,同時從資源管理器也看到GeForce RTX 4070的GPU佔用率達到了50%,說明在質量4的情況下,將1080p視頻實時提升至4K分辨率是需要消耗不少運算資源。
![]()
左爲VSR OFF,右爲VSR ON
這裏我們不妨在將錄製的畫面放大到細節,左側原畫質下字體顯示模糊,而一旦VSR ON之後,字體立馬清晰了很多。現在這項功能已經能夠從VLC播放器上免費獲得,前提是需要有GeForce RTX 30或GeForce RTX 40以上的GPU。
![]()
左爲VSR OFF,右爲VSR ON
將內容製作進行到底
最後讓我們回到內容製作環節。無論是Intel高端CPU還是NVIDIA Studio驅動,不斷向消費級產品下放內容創作加速功能。憑藉着NVIDIA在行業內的影響,主流的專業軟件也已經向NVIDIA技術看齊。
前面我們提到,GeForce RTX 4070保留了1個NVENC和1個NVDEC,包含了AV1編解碼器的功能,AV1編碼器能比H.264編碼器效率高出40%。這意味着AV1編碼器能夠利用現階段可以進行1080p串流視頻的帶寬,實現1440p甚至更好的畫質,比如同樣的帶寬佔用下,在嗶哩嗶哩可以輕鬆播放2K或者4K的視頻,而播放4K的帶寬也將可以用來播放更高分辨率的內容。
![]()
另外一個不得不提的就是NVIDIA Omniverse Create。NVIDIA Omniverse作爲視覺和數字孿生工業模擬應用的入庫哦,已經打破了諸多專業軟件之間不兼容的限制,旨在統一虛擬空間下模擬與現實相同的環境與場景,加速工業、創意、內容製作的效率。
不僅如此,NVIDIA Omniverse Create還引入了已經在好萊塢付諸應用的通用場景描述(USD)格式,並不斷添加更多的通用素材包,使得創作變得更爲輕鬆。因此NVIDIA Omniverse也被認爲是構建元宇宙最理想的入口之一。
![]()
這裏我們主要使用NVIDIA Omniverse Create分別在2K、4K分辨率下對Campfire、Flowers4、Incense、Jade Tiger、Warehouse五個場景進行預覽測試,並計算平均值,可以看到在2K分辨率下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升160%,相對GeForce RTX 3080 10GB提升也有90%,主要原因是DLSS 3幫助加速了整個創作場景的運行。
同樣在4K分辨率預覽模式下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升140%,相對GeForce RTX 3080 10GB提升也有100%。
![]()
接下來是畫面渲染測試。我們先使用了Blender Benchmark檢測GeForce RTX 4070的輸出能力,在Moster、Junkshop、Classroom三個場景中,可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相對GeForce RTX 3080 10GB提升爲20%左右。
![]()
同樣在V-Ray 5 Benchmark中會分別考驗CUDA和光線追蹤性能,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升25%,相對GeForce RTX 3080 10GB提升大約爲10%。
![]()
Octane Render RTX是同樣是測試GPU的光線追蹤性能表現,在一個複雜場景下考驗GPU每秒產生的樣本率,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相對GeForce RTX 3080 10GB提升大約爲10%左右。
![]()
SPECviewperf 2020則是通過建模對象或渲染體的旋轉和縮放檢視,來檢測在各種專業設計領域(包含能源勘探、醫學、建築設計、機械設計、汽車設計、飛機設計等各種領域)的圖形性能,也是工程人員在日常中最常遇見的場景,其中包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等主流軟件。
可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升200%,相對GeForce RTX 3080 10GB提升大約爲10%左右。
![]()
寫在最後
在一番體驗之後,GeForce RTX 4070 Founders Edition着實給人留下了不錯的印象,不僅僅是強大的DLSS 3技術爲其帶來了2K分辨率開啓最高畫質光追下的流暢體驗,強大的AI性能,讓GeForce RTX 4070輕鬆遊刃於AI內容創作、RTX視頻增強以及諸多專業軟件之中,已經可以滿足平常使用時的絕大多數場景。
![]()
更重要的是,GeForce RTX 4070 Founders Edition小巧的身形與低功耗表現,迴歸到了大部分玩家印象中的顯卡形態,更輕易安裝到主機箱中,不再爲空間與走線所煩惱。同時也帶來了2K分辨率輕鬆超過100FPS的表現,對於GeForce RTX 2070 SUPER玩家而言,升級帶來的收益相當巨大。
同時Founders Edition作爲公版的影響力,也勢必帶領一衆AIC重新審視外觀設計。畢竟小巧、高能效比、高性價比,這也是更多數主流玩家所需要的。
![]()
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
