“飢渴”的AI時代:AMD Instinct加速器面前是一條“星光大道”

AI時代最根本的是什麼?是算力。

隨着AI模型、訓練數據規模的不斷膨脹,對於算力的渴求也是空前高漲,沒有盡頭。

強大的AI算力可以來自CPU,可以來自GPU,可以來自FPGA,可以來自ASIC,各有各的優勢,其中的王者毋庸置疑就是GPU加速器。

如今的AI GPU加速器市場,呈現着明顯的“一家獨大、兩家追趕”的態勢:NVIDIA有着無可比擬的市場地位,尤其是軟件生態遙遙領先;AMD、Intel都有各自的獨特方案,也都有了不俗的成果。

NVIDIA的大家都比較熟了,Intel的纔剛剛起步,今天我們重點聊聊AMD Instinct系列加速器,看看它能不能真正挑戰NVIDIA。

畢竟,任何市場領域一家獨大,都不是什麼好事兒,都需要你來我往的競爭,纔是對用戶利益、對行業發展最爲有利的。

AMD Instinct很多人可能不太熟悉,但其實歷史也很優秀了,可以追溯到2017年。

不過那時候,它還叫Radeon Instinct,基礎架構也是和Radeon遊戲顯卡通用的,包括Polaris、GCN、Vega,一直到2020年的RDNA都用過。

這麼做的好處是開發成本低、推進速度快,但缺點也很明顯,就是在計算方面缺乏針對性和高效率。

2020年誕生的Instinct MI100,成爲這條產品線的一個轉折點,因爲它首次採用了專門設計的CNDA計算架構,和RDNA圖形架構徹底分道揚鑣,同時去掉了名字中的Radeon字樣,踏上了新的征程。

2021年的Instinct MI200系列又達到了全新的高度,這是AMD第一款ExaScale百億億次計算性能級別的加速器產品,號稱在同類產品中擁有世界上最快的HPC性能、AI性能。

它升級到了第二代CDNA 2架構,首創MCM多芯整合封裝,擁有Infinity Fabric高速互連通道、矩陣核心、128GB HBM2e高帶寬內存等等,性能異常強大,浮點性能約48萬億次每秒。

該系列包括MI250X、MI250、MI210三款型號,在諸多高性能計算、機器學習、人工智能、超級計算機中都有普遍應用。

尤其是頂級滿血的MI250X戰績彪炳,目前公開性能世界第一、已經三連冠的超算“Frontier”,就是基於它打造的,最大性能高達119.4億億次浮點每秒,是第二名的多達2.7倍,峯值性能更是168億億次浮點每秒,是第二名的3倍還多!

第三名的“LUMI”同樣是採用了MI250X,最大性能30.9億億次浮點每秒,峯值性能42.9億億次浮點每秒,相當於第二名的七八成。

值得一提的是,韓國電信運營商Kt還使用AMD Instinct平臺運行了該國第一個大語言模型,支持110億參數。

最新一代的Instinct MI300系列再次實現跨越,並開闢了全新的方向,有了兩款不同的產品。

其中,MI300A是全球首款面向HPC、AI的APU加速器,基於AMD的成熟經驗,開創了CPU、GPU合體加速的先河。

它採用了先進的Chiplet芯粒設計,一共有多達13顆小芯片,其中計算部分9顆,都是5nm工藝製造,基底和擴展部分4顆,都是6nm工藝製造,集成多達1460億個晶體管。

CPU部分爲Zen 4架構,三組CCD共24個核心,GPU爲最新的CDNA3架構,還有128GB大容量的HBM3高帶寬內存,可以爲CPU、GPU所共享。

MI300A使用了標準的Socket獨立封裝,因此不再需要單獨的CPU處理器,自己就能組建一整套加速平臺,大大簡化系統設計。

MI300X則是純GPU加速器,相當於把MI300A裏的CPU模塊也替換成GPU,同時將HBM3內存容量增加到史無前例的192GB,帶寬達到驚人的5.2TB/s。

整體集成的晶體管數量,也達到了同樣史無前例的1530億個。

作爲對比,NVIDIA最新的H100加速器也只有800億個晶體管,只有MI300X的一半多點,不在一個層級上。

爲方便客戶部署,AMD全新設計了Instinct平臺,基於行業標準的OCP計算標準,單系統可集成最多八塊OAM形態的MI300X,HBM3內存總容量達1.5TB。

Instinct MI300系列也已經開始投入商用,比如美國勞倫斯利弗莫爾實驗室的新一代超級計算機EI Capitan,已開始安裝MI300A加速器,搭檔第四代AMD EPYC處理器。

它將在明年上線,預計性能超過200億億次浮點計算每秒,也就是可以超越當今第一的Frontier。

MI300X的強勁性能和超高能效,使之可以輕鬆應對當今AI對強算力的需求,搞定各種幾百上千億參數的大語言模型,Falcon、GPT-3、PaLM 2、PaLM等等都不在話下。

甚至,MI300X單卡就能運行800億參數的大語言模型,尤其是得益於超大容量的HBM3內存,大模型可以完全在HBM3內存中運行,無需動用系統內存,從而省去數據傳輸與拷貝,大大降低延遲、提升性能。

相比於 NVIDIA 80GB HBM內存加速器,運行同樣參數規模模型,MI300X所需要的GPU數量也更少,自然成本更低。

更關鍵的是,NVIDIA H100/A100加速器過於火爆,價格一路飆升,比如應用最多的H100目前已經要到4.5萬美元一塊,相當於30多萬人民幣,新一代的A100也需要十幾萬。

甚至,就算你捨得花錢,也不一定買到。負責代工的臺積電也承認,H100/A100的緊缺狀況還要持續大約一年半之久。

相比之下,AMD的一貫優良傳統恰恰就是高性價比,正好可以給客戶提供更豐富的選擇空間,而不是吊在一棵樹上。

當然了,作爲AI加速器,不但需要硬件設計強大,更需要足夠高效的開發平臺、足夠優化的軟件和應用適配,才能徹底釋放潛力。

NVIDIA在這方面無疑做得相當透徹,這也是其贏得開發者和市場的一大關鍵。

AMD ROCm開發平臺同樣歷史悠久,只是在技術特性、生態適配上一直有待進一步拓展,而今在AI的驅動下正在努力追趕。

比如新一代ROCm 5.x版本,針對HPC、AI做了全方位優化,支持各種流行的AI模型、框架和算法,諸如PyTorch、TensorFlow、ONNX、OpenXLA、Triton、DeepSpeed……方便開發者根據自己的實際需要選擇,靈活滿足不同場景。

值得一提的是,現在部署MI210,AMD還會提供軟件層面的搭建支持,讓客戶的安裝、使用更加簡單、省心。

說到這裏順帶一提,除了高性能計算GPU方面,AMD還正在不斷釋放消費級遊戲GPU的AI潛力,比如大火的文生圖應用Stable Diffusion,已經可以在Windows系統下跑在AMD Radeon顯卡上。

如今,你可以在Automatic1111(Xformer)下使用微軟的Microsoft Olive(一個可用於轉換、優化、量化和自動調整模型以通過DirectML等ONNX運行時執行提供程序獲得最佳推理性能的Python工具),來啓用Stable Diffusion,從而在Windows系統上通過Microsoft DirectML,獲得顯著的加速。

AMD也一直在與微軟合作優化AMD硬件上的Olive路徑,通過微軟DirectML API,以及用於DirectML的AMD用戶模式驅動程序的ML層加速,從而允許用戶訪問AMD GPU的AI功能和性能。

按照AMD實測的數據,RX 7900 XTX在默認PyTorch路徑上運行,每秒可提供1.87次迭代,而換到Microsoft Olive的優化模型上運行,每秒可提供18.59次迭代,也就是性能提升多達9.9倍!

相信像這樣的生態適配和合作,未來勢必也會越來越多地體現在AMD Instinct上。

最後,AMD Instinct還有一個任何對手都無法匹及的優勢,那就可以是背靠完整的AI產品矩陣,提供一整套一站式解決方案。

尤其是高性能的EPYC處理器,經過幾年的迭代,計算性能已經遙遙領先,新一代EPYC 9004系列已經升級到Zen 4架構、96核心192線程、12通道DDR5內存、160條PCIe 5.0總線,還衍生出了Zen 4c高能效核心、3D V-Cache 1GB+緩存等不同版本。

事實上,當今的衆多高性能計算平臺尤其是超級計算機,都部署了AMD EPYC、AMD Instinct這一對黃金組合,效果拔羣,在各種科學與學術研究中貢獻力量。

總的來說,在這個AI蓬勃發展的時代,對於強大算力的需求只會越發高漲,其中蘊含着前所未有的機遇。

NVIDIA的強大和領先毋庸置疑,軟硬件結合更是做得十分到位,但一花獨放不是春、百花齊放春滿園,我們同時也非常希望AMD、Intel能把握住這個風口,拿出同樣優秀的方案,讓開發者和用戶受益。

AMD更是尤爲值得期待。Instinct系列加速器發展多年,屢屢實現創新突破,性能上絕對不是問題,能在超算的世界裏脫穎而出就是明證,只要在開發和生態上多下一番功夫,勢必更受歡迎。

同時,AMD還有着全套解決方案的支撐,特別是強大的EPYC處理器現在讓Intel都不得不仰視,可以和Instinct珠聯璧合,再加上一貫以來的高性價比,前途必然是相當光明的。

來源:快科技

點擊此處查看原文>>>

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com