你是說你家裏有個超算?!:AMD TR 9980X 9970X測評

Prelude:速來圍觀新一代的富哥專用平臺!想了半天要不要轉黑盒,畢竟這麼貴的CPU也不是用來玩遊戲的。不過想想大家這麼雄厚的家資,最後決定還是轉了,萬一真有富哥看得上呢!

最近我在做一些生物學的計算以及計算化學模擬的時候,遇到了嚴重的性能不足。我平時會接觸到的科學計算其實很多,如果完全排除GPU參與的過程的話,那麼對CPU要求很高的一般會涉及到兩個方面,一個生物化學中的大分子摺疊計算,另一個則是機器學習的CatBoost算法。這兩個算法都是非常單純的CPU應用,而從原理上也很難使用GPU進行加速。

這些科學計算的時間直接影響到我在工作和科研上的進度,因爲這些事情往往是線性的,而最近需求不斷提高,以至於這些科學計算成爲了我目前工作中的瓶頸。我工作學習的地方其實不是沒有計算資源,相反,總共160 +112個CPU節點的計算資源已經稱得上是體面了,但是面對我目前的工作負載,還是顯得力不從心,只要我一開始工作,機房裏那臺體積龐大的服務器就像油門踩到底一樣開始轟鳴。

所以,爲了我的工作體驗,不得不請出最新最好的桌面CPU計算平臺,也就是AMD最新一代的縣城撕裂者 Threadripper 9980X和9970X!這兩顆CPU其實就是High-end Desktop,也就是HEDT平臺,雖然現在大家見得少了,但是在七八年前用X99 X299 X399打遊戲的是大有人在。不過言歸正傳,這兩顆U都是多核導向的CPU,要遑論遊戲實力大概率是打不過98X3D了,但是有興趣的盒友也可以看看這顆U是不是真的能用上哈哈哈!

一、簡介

本次測試的是兩個9000系的線程撕裂者,TR 9980X 以及9970X,分別是64核128線程以及32核64線程的配置。兩顆CPU的包裝使用了更顯專業的黑色主題,比一般的CPU盒更重更大,因爲包裝中的CPU體積碩大,緩震材料和附贈的配件也不少

和TR一直以來的傳統一樣,這兩顆CPU都贈送了水冷扣具和螺絲刀,專門用於TR這個巨大的CPU插槽。另一面則是CPU,使用專門的雙層塑料盒保護,同時在下層還有貼紙和說明書

TR最引人注目的就是碩大的CPU面積,以及在CPU周圍的橙色保護框架,這個框架用於安裝和拆卸時的定位,是CPU必要的組件

CPU的正面是標有線程撕裂者的金屬頂蓋,線程撕裂者目前使用sTR5接口,在大小規格上和TR4或者SP3是基本一致的,需要使用特製的散熱器才能實現完全覆蓋

簡單演示一下這個CPU要怎麼安裝,按照順序打開CPU的插槽,建議使用附贈的工具。然後再插入CPU,利用框架和底座的滑軌進行定位。最後關上頂蓋,按照順序擰上螺絲。

本次測試使用的主板是華碩的WS TRX50系列的TRX50-SAGE,這塊主板屬於工作站系列,相比ATX略微超寬但並不是標準的EATX,可以放入兼容EATX的機箱,4條內存槽是爲普通線程撕裂者準備的。

主板正面的馬甲非常精準地給了供電和芯片組,並且做了主動散熱,規模龐大且做工精良,一切都是爲了默認就有350W的TR打造。WS TRX50-SAGE有一個特色是雙供電系統,可以使用兩套相同的電源爲主板CPU同時供電,從而提升系統穩定性並且提供驚人的CPU超頻能力。(最嚇人的難道不是華碩在WS主板上也沒有完全放棄超頻嗎)

主板提供了異常豐富的IO功能,CPU可用88條PCIE,被完全給到PCIE區域,同時提供了3個m.2接口。在背部IO區域,這塊主板有高速的TypeC接口和6個10G的USB-A,並且是雙有線網卡,最大10G帶寬,附帶的WIFI模塊也是最新的WIFI7。同時音頻同時提供數字音頻和光纖口,並且提供Bios-flashback和clearcmos的物理按鍵

理論性能測試

先開機驗明正身,9980X的CPUID信息顯示,這個CPU使用的是最新的臺積電N4p工藝,64核心128線程,並且支持4通道內存(Pro級別的TR支持8通道)。和這CPU一起測試的是芝奇的32Gx4內存,以及華碩的RTX5070Ti顯卡,散熱使用銀欣的定製水冷,電源爲華碩的WS 1600W電源,保證使用過程中的穩定。9700X的CPUID信息類似,但是核心規模和各類緩存都少一半,只有32核心,不過仍然超過了目前大核數量最多的普通桌面級9950X3D一倍,也支持4通道內存

首先烤雞測試一下讓硅脂化開(確信),從統計信息可以看到,這兩個CPU在默認情況下都能跑到350W的TDP,雖然看着很嚇人,但是簡單對比一下目前intel的Ultra9那250W的功耗,再聯想一下9980X這個64核心的身板,8倍於285K的大核數量,只需要這一點功耗好像能耗比一下就上來了。而且因爲功耗不高,所以使用銀欣的360水冷就能穩穩壓住,9980X和9970X的溫度穩定在了67℃和77℃,即使是最熱點最高也沒有超過85℃

下面是多核和單核的理論測試,畢竟是HEDT的CPU,跑分跑起來直接性能爆表,cinebench這種原本上萬分就算不錯的測試,9980X直接跑出了15w分。Ultra9 285K默認可以跑出4w分,需要250W的功耗,9980X只需要350W就能跑15W,也直接證明了TR的能效比有多嚇人。而雙精度的實力也達到了接近10TFlops,就算是A100這種服務器級別的顯卡,雙精度能力也只有9.4TFlops,也就是這顆CPU憑藉硬算,直接能硬剛以前的專業級旗艦卡的雙精度算力

在單核性能上,這兩顆CPU也是目前接近旗艦級別的。因爲這兩個CPU都使用了最新的Zen5構架,而且單核boost頻率並不差,所以單核表現和9950X已經很接近了。一般服務器CPU多核強單核弱,但是這兩顆CPU完全是單核多核都強到爆炸,並且能耗比高得驚人

在常規的windows生產力應用上,因爲使用了4通道內存,並且有不錯的單核,實測在LLM推理、圖片和視頻處理上,這兩顆CPU也可以輕鬆勝任。不過這些都是比較虛無縹緲的

科學計算對比測試

說到科學計算,大家腦海裏可能第一個聯想到的就是長相獵奇的科學家在草稿紙上計算一些神祕的數字,然後科學家驚喜地拿着計算結果大喊道:“尤里卡!”。然而實際上科學計算仍然非常依賴軟件和硬件的共同優化,即使是現在最爲領先的科學計算工具,也不能跳脫出CPU的單核多核性能而遑論速度。目前我用的最多的兩個CPU科學計算工具,分別是機器學習中的Catboost模型,以及生物大分子的RNAStructure,他們都非常依賴CPU的上述性能。

而也如大家所見,實驗室中的CPU計算資源裏的112線程和開頭提到的160線程的計算節點已經被喫得一點不剩了。他們的配置是intel的Xeon Gold 6330和 6248,而且一個是雙CPU平臺,另一個是4 CPU平臺,買來的時候單價都不算低。像6330這種核心和頻率稍微高一點的CPU,現在價格仍然不算低,服務器CPU中最金貴的兩個東西就是多插槽適配以及高基礎頻率,所以沾上這兩點即使是老Xeon Gold的價格也一直沒怎麼下來。

首先測試的是Xeon Gold 6330 x2的平臺,4U服務器,56核心112線程,買來的時候被寄予厚望。第一個測試是用於生物大分子二級結構預測的RNAStructure,這個應用每一個線程上只能跑一個序列,所以在序列較少的時候是偏單核的,但是序列較多的時候就會考驗多核。我分別測試了50條(單核爲主),500條(混合),5000條(多核爲主)的性能,這一臺服務器的結果如下,明顯看到50條和5000條的時間只差了一倍,單核性能限制了服務器的發揮。

第二個測試的則是Catboost的擬合,使用相同的擬合輪次和隨機種子,對一組數據進行擬合,數據量分別是100% 75% 50% 35% 25%。每一輪的時間都有統計,最後統計了花費的總時間,112線程的雙6330用了55分鐘,還是挺慢的,不過比我本地的辦公用垃圾8核CPU還是快很多倍了

下面測試的是Xeon Gold 6248 x2的平臺,4U服務器,80核心160線程,已經是相當不錯的CPU計算節點了。首先,生物大分子二級結構預測的RNAStructure測試的結果,單核多核性能都比112線程的6330平臺稍好一點,這也說明基礎頻率+核心數量多確實是有用的。而在Catboost的測試裏面,速度變快了很多,只花了32min就跑完了全部測試,多核性能的提升帶來的結果是是實打實的

下面就是TR 9980X和9970X這兩個CPU的的測試結果了,我按照相同的方式安裝了ubuntu系統以及依賴項

首先是9980X的測試結果,和剛纔的兩個4U機架式服務器相比,9980X的速度簡直快到無以復加。首先Catboost的測試,只花了14:50就全部完成,這還不到80核的6248x4的一半,更是不到6330x2的1/3。多核性能已經足夠強的時候,瓶頸就主要存在於文件的IO了,此時CPU並不是完全佔滿的,如果沒有瓶頸可能領先會更大。在全部相同的參數下,計算過程和結果也是相同的,全部符合要求。

而在生物大分子二級結構預測的RNAStructure的測試裏面,因爲TR那傲人的單核成績,50序列的結果只花了46s就完成了,換算一下,9980X的單核成績大概是上面這些老Xeon的三倍!同時我們還能通過多核成績推斷,64c的9980X也有着將近二倍於80c的6248x4的多核能力,只用了一顆CPU就實現了這個性能,實在是太強了

而9970X的成績也頗爲傲人,Catboost中也有16min的成績,明顯好於其他的Xeon平臺。而生物大分子二級結構預測的RNAStructure也是相近的結果。9970X的單核能力更強,所以50條序列的測試比9980X更快,而多核成績稍遜,因此5000序列略慢,但是也遠遠勝於Xeon平臺

下面來看一下成績彙總吧,經過測試,可以說這些老Xeon不管是單核還是多核的性能,在新的TR面前已經被秒的渣都不剩了。TR的多核比核心數量大於自己的服務器U都還領先不少,多核爲主的任務速度可以輕鬆超過一倍。TR尤其出衆的是單核能力,基本是本世代旗艦級別的單核,而又是HEDT的身板,一般的服務器難以望其項背。如此一來,就給TR的應用範圍擴寬不少,文可依靠單核速跑小批量實驗,武可依靠多核速算大規模任務

測試硬件展示

下面是參測的硬件展示,首先就是兩個CPU,TR 9980X和TR9970X。AMD的HEDT一直在更新,在進入DDR5時代之後,TR也更新到了sTR5接口,搭載於TRX50系列主板上

使用的內存是芝奇的6400MHz 32Gx4內存,這一套內存是全新內置時鐘發生器的CUDIMM,不需要單獨開啓XMP或者EXPO,插上主板就是自動的JEDEC標準 6400MHz,很有實力,在計算用的平臺上非常仰仗默認高頻的穩定性

散熱爲銀欣定製散熱,因爲冷頭較爲特殊所以使用了泵排一體的設計。散熱效果也是一流,在實際使用中,350W的TR被壓到了70度

使用的電源是華碩的Pro Workstation系列 1600W電源,這個電源專門爲工作站打造,高功率高效率,並且也是少有的支持兩個12VHPWR接口的電源,可以同時給兩張顯卡供電,完美適配使用5090x2的情況

測試中使用的顯卡是RTX5070Ti華碩的TUF白色款,這張顯卡有着TUF的系列外觀,不過外殼改爲了銀白色,成爲了目前與白色Astral並列的另一個白色系列顯卡。這也是本世代頗具實力的一款非公顯卡,散熱好噪音小,用起來很舒服

總結

ThreadRipper線程撕裂者這個名字出來的時候確實有夠震撼,一開始就有最大16核的CPU,而同期intel的HEDT (high-end desktop平臺)才10核,一下就高下立判。而現在TR已經發展到最大96核心8通道內存,非PRO版本的也有64核心,作爲HEDT而言相當成功。

當代的9980X的計算能力更是強到爆炸,拿目前intel的單CPU的服務器計算節點做對比,24年發佈的新Xeon 6980P有128大核256線程,結果一看cinebench單核才1500,多核就90000分,全都趕不上9980X的2200分和150000分,何況價格還比9980X貴。而同規格的6761P,也是64c128t,也是350W,25年Q1發佈,用上了最新工藝,結果性能一看差點沒打過32c64t的9970X。

單純論性能可能有一種200斤大力士偷襲老同志的感覺,但是TR的優勢還體現在體積功耗上。一般的服務器U必須用家用機箱難以裝下的4U服務器箱子,剛纔提到的6980P已經目前最強的單CPU了,功耗500W,散熱器也是直升機一樣的4U服務器散熱器。而反觀TR,可以用常規的EATX機箱,並且可以使用水冷,噪音溫度也不高,完全就是桌面級計算機的使用體驗,卻有着比服務器更強的性能,這便是我將它稱爲性能功耗體積全優的桌面超算的原因。雖然現在大家見得少了,但是在七八年前用X99 X299 X399打遊戲的是大有人在。不過這兩顆U都是多核導向的CPU,要遑論遊戲實力大概率是打不過98X3D了,有興趣的盒友也可以看看這顆U是不是真的能用上,畢竟大家在我心中都是頗有家資的富哥呀

感謝大家圍觀,有興趣可以關注我看更多首發測評!

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com