来源——硬件世界
2023年发布的Instinct MI300X,可以说是AMD最成功的AI GPU加速卡,甚至称得上AMD历史上最成功的产品之一,用最快的速度拿到了1亿美元收入。
更重大的意义在于,它在几乎被NVIDIA完全垄断的高端AI芯片市场上,撕开了一道口子,为行业提供了更多选择。
2024年,AMD再接再厉发布了升级版的Instinct MI325X,主要提升了HBM3E内存,核心规格没变。
北京时间6月13日,AMD在美国圣何塞举办新一届Advancing AI 2025大会。
会上,AMD正式发布了全新一代“Instinct MI350系列”,包括MI350X、MI355X两款型号。
无论性能还是技术特性,新卡都再次取得了长足的进步,完全可以和NVIDIA Blackwell系列掰一掰手腕。
MI350系列最核心的变化,就是升级了新一代CDNA 4架构(可能也是最后一代CDNA),同时采用了新的N3P工艺。
从大的方向上讲,这一代的提升主要有四个方面,首要的自然是更好的AI能力,针对生成式AI和LLM大语言模型增强了数学矩阵模型。
另外,支持新的混合精度数据格式、增强Infinity Fabric互连总线和高级封装互连、改进能效,也都是重中之重。
MI350系列继续采用延续多代的chiplets芯粒设计,仍然分为顶层的XCD(加速器计算模块)、底部的IOD(输入输出模块)和周围的HBM3E内存模块。
其中,XCD工艺从5nm升级为N3P 3nm级工艺高性能版本,IOD则维持在6nm工艺。
它采用了非常复杂的多重先进封装技术,不同模块之间使用了2.5D、3D混合键合,整体则用了台积电的CoWoS-S晶圆级封装,使用硅中介层作为主要的连接媒介——NVIDIA也在大面积使用它,不过已经开始向更高级的CoWoS-L过渡。
上代MI300X就使用了1530亿个晶体管,创下新高,MI350系列进一步增加到1850亿个晶体管。
这是MI350系列的内部架构和布局图。
XCD模块一共有8个,每个内部分为4组着色器引擎,下辖36组CU计算单元,还有4MB二级缓存,配有一个全局资源调度分配单元。
整体合计288个CU单元、32MB二级缓存,但是MI350系列每个XCD中屏蔽了4组CU单元,实际开启了256组(1024个矩阵核心),反而少于MI300X/MI325X 304组(另屏蔽16组),而每个单元的二级缓存容量没变。
IOD模块一共2个,集成128个通道HBM3E内存控制器、256MB Infinity Cache无限缓存,容量和上代相同,还支持第四代Infinity Fabric互连总线,双向带宽提升至1075GB/s。
HBM3E内存仍然是8颗,每一颗都是12Hi堆叠,和MI325X相同而高于MI300X 8Hi,只是这次开放了全部容量,单颗是完整的36GB而非32GB,因此总计多达288GB。
内存传输率8Gbps,总带宽高达8TB/s,显著高于MI300X 5.3TB/s、MI325X 6TB/s,尤其是平均到每个CU单元的内存带宽提升了多达50%。
每一个IOD上堆叠四个XCD、四颗HBM3E,而两个IOD之间使用5.5TB/s高带宽的Infinity Fabric AP进行互连整合封装。
整个MI350系列芯片与AMD EPYC处理器之间的通道,走的是完整的PCIe 5.0 x16,带宽128GB/s。
功耗方面,风冷模组最高1000W,水冷模组则可以做到1400W。
在裸金属、SR-IOV虚拟化应用中,为了实现最大化利用,MI350系列支持对计算资源进行空域分区,最多可以分成8个。
不同分区可以支持多种使用模式,但不同于前代的NSP1、NSP4,这次改为NSP1(单个分区)、NSP2(双/四/八个分区),看似降级了,AMD解释说NSP4模式的性能提升其实比较有限。
MI350系列在单分区+NSP1模式下,最高可以支持5200亿参数的AI模型,而在八分区+NSP2模式下,可以支持最多8个700亿参数Llama 3.1模型的并发。
MI350系列针对生成式AI、LLM的具体改进,包括矩阵核心的提升和更灵活的量化机制,过于专业就不一一解释了。
注意这次支持行业标准的PF6、FP4格式,支持从FP16/BF16到FP32的基于硬件的Stochastic Rounding量化。
MI350系列支持丰富的数据格式,包括FP64、FP32、FP16、BF16、FP8、MXFP8、MXFP6、MXFP4、INT8、INT4。
通过提升每个CU单元每时钟周期的性能,FP16、BF16、FP8、FP6、FP4的单位性能都得到了显著提升。
正因此如,MI355X在核心数更少的情况下,性能基本追上甚至超过了MI300X,其中矢量FP64、FP32、FP16和矩阵FP32下都基本一致,矩阵FP64下约为一半(单位性能也是一半),矩阵FP16/BF16、FP8、INT8/INT4下的稀疏性性能则几乎翻了一倍,还新增支持了矩阵FP6/FP4稀疏性。
可以看到,MIX350系列的性能并非全方位飞跃,有些数据格式下甚至更弱了,因为这代更注重支持更多更灵活的数据格式、单位性能的提升(类似提升IPC),以及对于AI训推更关键的矩阵稀疏性能。
Instinct MI350系列有两款型号MI350X、MI355X,都配备完整的288GB HBM3E内存,带宽均为8TB/s。
区别在于,MI355X是满血性能,峰值可达FP64 79TFlops(79万亿次每秒)、FP16 5PFlops(5千万亿次每秒)、FP8 10PFlops(1亿亿次每秒)、FP6/FP4 20PFlops(2亿亿次每秒),整卡功耗最高达1400W。
MI350X的性能削减了8%,FP4峰值可达18.4PFlops,整卡功耗最高1000W,和MI325X持平。
当然更关键的是实际性能,官方宣称MI355X对比MI300X在不同AI大模型中的推理性能普遍提升了3倍甚至更多。
在AI助手/对话、内容创作、内容摘要、对话式AI等应用中,性能同样全面提升,最高幅度甚至超过4倍。
大模型预训练与微调中,提升幅度也不容小觑,最高达3.5倍。
MI350X对比NVIDIA B200/GB200,内存容量多出60%(后者192GB),内存带宽持平。
FP64/FP32性能领先约1倍,FP6性能领先最多约1.2倍,FP16、FP8、FP4领先最多约10%。
除了理论性能,大模型推理性能也处在同一水平,或者领先最多约30%,训练性能BF16/FP8预训练基本同一档次,FP8微调则有10%以上的领先。
更关键的是高性价比,单位价格可以多生成最多40%的Tokens。
MI350系列依然支持多GPU平台化部署,单个节点还是最多八卡,总计就有2304GB HBM3E内存,FP16/BF16性能最高40.2PFlops(4.02亿亿次每秒),FP8性能最高80.5PFlops(8.05亿亿次每秒)、FP6/FP4 161PFlops(16.1亿亿次每秒)。
八卡并行时,每两者之间都是153.6GB/s双向带宽的Infinity Fabric通道互连,而每块卡和CPU之间都是128GB/s双向带宽的PCIe 5.0通道连接。
MI350系列支持风冷、机架部署,其中风冷下最多64块并行,液冷时支持2U到5U,最多128块并行,也可以96块。
128卡就能带来36TB HBM3E内存,性能更是达到恐怖的FP16/BF16 644PFlops(64.4亿亿次每秒)、FP8 1.28EFlops(128亿亿次每秒)、FP6/FP4 2.57EFlops(257亿亿次每秒)。
AMD声称,AMD致力于在5年内将AI计算平台的能效提升30倍,MI350系列最终做到了38倍!
下一步,从2024年到2030年,AMD将再次把AI系统的能效提升20倍,届时只需一台机架即可完成如今275台的工作,节省多达95%的能源。
特别值得一提的是,作为AI加速系统平台的一部分,AMD此前还发布了一款超高性能网卡Pensando 400 AI(代号“Pollara”),首次与EPYC CPU、Instinct GPU一起组成完整的平台方案。
这是业界第一个符合超刚刚发布的以太网联盟(Ultra Ethernet)规范的网卡,支持PCIe 5.0,带宽达400G(40万兆),完全可编程可定制,可卸载和加速AI处理。
现在,AMD有了新一代全部基于自家技术和产品的AI加速系统平台级解决方案。
EPYC CPU处理器、Instinct GPU加速卡、Pensando网卡无缝配合,尤其是网卡可以卸载接手并高效处理CPU、GPU的部分工作,释放平台的最大性能潜力。
M350系列方案将从第三季度开始供应客户,可以看到各大OEM、ODM厂商基本都在名单之中了。
生态与应用合作伙伴方面,AMD Instinct的朋友圈正在快速扩大,全球十大AI企业中已经有七家用上了Instinct,包括微软、Meta、OpenAI、特斯拉、xAI、甲骨文等。
Meta Llama 3/4模型推理广泛部署了MI300X,还在与AMD共同研发下一代MI450。
甲骨文率先引入MI355X,新一代AI集群正在部署多达131072块。
微软Azure私有和开源模型都用上了MI300X。
还有红帽、Mavell、Cohere、Astera Labs等等,甚至提到了华为,其正在与AMD探讨共同利用AMD平台打造开放的、可扩展的、高性价比的AI基础设施。
最后顺带一提,最新发布的TOP500超级计算机排行榜上,AMD EPYC+Instinct平台支撑了全球最快的两台超算,还在各个国家的不同项目中得到了广泛的部署。
位居榜首的是位于加州劳伦斯利弗莫尔国家实验室的El Capitan,采用第四代EPYC处理器、MI300A加速器的组合,拥有超过1100万个核心,最大性能达到1.742 EFlops(147.2亿亿次每秒)。
紧随其后的是田纳西州橡树岭国家实验室的Frontier,第三代EPYC、MI250X的组合,最大性能1.353EFlops(135.3亿亿次每秒)。
这两台超级计算机均由美国能源部实验室运营,均属于百亿亿次级的超算系统。
Instinct MI350系列硬件能力再次取得飞跃,进一步强化了面对NVIDIA的竞争力。
但是我们知道,硬件性能和技术要想完全释放潜力,尤其是在AI加速系统中,强大的软件开发平台是必不可少的。NVIDIA能在AI行业有如今的地位,最大的功臣和护城河就是CUDA。
AMD也有自己的一套ROCm开发平台,一直和NVIDIA CUDA都存在一定的差距,好在最近的进步幅度也是非常喜人的,包括对众多AI大模型、框架的即时支持,全方位的开源。
现在,我们又迎来了全新的ROCm 7版本,在最新模型与算法支持、高级AI特性、新硬件支持、集群管理、企业级特性等各方面,都再次有了长足的进步。
训练方面,ROCm 7支持一系列新特性,包括多个AMD开源模型、增强的AI框架、增强的内核与算法、新的数据类型(BF16/FP8)等等。
官方声称对比ROCm 6,实测在Llama 2/3.1、千问1.5等多个模型中,性能提升普遍达到了3倍乃至更高。
推理方面,新的变化同样不少,包括增强框架、Serving优化、内核与算法改进、高级数据类型(FP8/FP6/FP4/混合)等。
性能提升同样喜人,Llama 3.1、千问2、DeepSeek R1等模型实测平均达3.5倍,最高更是可达3.8倍。
有了ROCm 7的加持,MI355X面对NVIDIA B200也是丝毫不弱,比如DeepSeek R1 FP8吞吐量可以领先达30%。
当然这只是一个例子,AMD并未更多地对比自家新品和友商竞品。
除了数据中心、企业端,ROCm 7在消费端也有全面改进,新增原生支持Red Hat EPEL、Ubuntu、OpenSUSE等更多的Linux系统发行版,其中前两者下半年实现。
Windows平台上,也新增支持PyTorch、ONNX-EP两大框架,分别在三季度和7月份开放预览。
AMD还顺带介绍了下全线的消费级AI解决方案,比如移动端的锐龙AI 300系列最高可以本地端侧运行240亿参数大模型,锐龙AI Max 300系列更是能跑到700亿参数,而新一代线程撕裂者处理器、Radeon AI显卡组合最高可以搞定1280亿参数。
同时,AMD还预告了下一代Instinct MI400系列,包括初步规格、性能、平台等。
AMD首先公布了一份稳健的路线图,强调Instinct系列产品线将继续坚持每年升级一次。
2023年的MI300X/300A,2024年的MI325X,2025年的MI350X/MI355X,2026年就是MI400系列。
不过注意,MI300A将成为至少近期唯一的CPU+GPU融合设计产品,未来暂时不会有这种产品了,尽管最新公布的全球第一超算用的就是它。
官方没有明确解释为什么,猜测是部署和开发适配的难度、成本更高,性能也可能不如传统的独立CPU+GPU。
AMD声称,MI400系列将实现更大幅度的配置提升、性能跨越。
内存将升级为下一代HBM4,单卡容量高达恐怖的432GB,带宽19.6TB/s,对比MI350系列的288GB HEM3E、8TB/s分别增加50%、145%,平均每个CU单元的内存带宽也提升到300GB/s。
FP8/FP6、FP4性能分别达到20PFlops(2亿亿次每秒)、40PFlops(4亿亿次每秒),直接翻番,事实上在某些应用中的极限性能提升幅度可达难以想象的10倍!
工艺和架构没说,不知道继续3nm还是升级到2nm,不知道叫CDNA 5还是首次改为UDNA。
明年,AMD还将推出代号Vulcano(火山)的下一代Pensando网卡,依然符合UltraEthernet标准。
新网卡将升级3nm制造工艺,支持PCIe 6.0,带宽翻番至800G(80万兆)!
除了Instinct MI400系列加速器、Pensando Vulcano网卡,AMD明年还会推出代号“Venice”的下代EPYC处理器,升级Zen6架构。
三者共同组成新的AI加速系统平台,AMD也会推出参考设计的AI机架方案,代号“Helios”。
Helios AI机架可容纳最多72块MI400系列GPU,对标NVIDIA NL72,总带宽260TB/s,HBM4内存总容量31TB、总带宽1.4PB/s,超过竞品足足一半。
整机性能,可高达FP8 1.4EFlops(140亿亿次每秒)、FP4 2.9EFlops(290亿亿次每秒),和竞品基本在同一水平上。
继续向前,2027年,AMD还将推出再下一代的MI500系列,搭配代号Verano的再下一代EPYC处理器,应该会升级到Zen7架构了!
在发布会现场,AMD与合作伙伴也展示了大量的AI服务器方案,有的已经升级到最新款MI350X、MI355X,有的虽然用的还是老一代MI300X、MI325X,但升级也很轻松,只是时间问题。
苏妈现场图与官方渲染图——
MI350系列芯片、加速卡和平台——
MI350系列芯片本体,MI350X、MI355X是一颗芯片的不同版本。
中间两个最大的,就是两颗XCD计算模块,通过Infinity Fabric高速总线紧密结合在一起,周边排布着八颗HBM3E内存,单颗36GB,总计288GB。
四角有四颗非常小的芯片,具体不详。
IOD输入输出模块位于下方,无法直接看到。
OAM形态的加速卡,非常紧凑,PCB是真的厚啊。
中间是安装了大型风冷散热器的加速卡。
八路并行平台,裸板和安装散热器之后,共计2304GB HBM3E内存,FP6/FP4算力高达161.1 PFlops,也就是每秒超过16亿亿次。
合作伙伴服务器、机柜——
SuperMicro超微的2U水冷服务器,最多八卡。
思科,8U,双路四五代EPYC(组多64核心),12条PCIe 5.0,已适配MI350系列,24条DDR5。
广达,7U,双路四五代EPYC(最高500W),目前安装的是MI300X、MI325X,也支持MI350系列。
Aivres,10U,双路五代EPYC,八路Instinct OAM。
仁宝,7U,最多八路MI325X或MI355X。
纬创,8U,五代EPYC,八路MI350X。
英业达,全面支持MI300X、MI325X、MI355X。
戴尔,10RU,双路五代EPYC,八块MI350系列。
思科,双路五代EPYC配古老的八块MI210,很少见的组合。
超微,4U,双路四五代EPYC,八块MI355X,液冷。
超微,8U,双路四五代EPYC,八块MI350X。
神达,8U,双路四五代EPYC,八块MI325X。
华硕,7U,双路五代EPYC,八块MI325X、MI350系列。
华擎,8U,八块MI355X。
华擎,4U,八块MI355X。
技嘉,4U,支持MI325X、MI355X。
慧与/Cray打造的世界最强超算EI Capitan的一个计算节点,两个四插槽MI300A APU,为数不多的案例。
神达、和硕更是拜访了两台完整的机柜,当然不是真正的产品,只是演示之用,内部安装了多款不同型号、配置的机架服务器,神达的还可以整体液冷散热。
网卡——
最后是AMD做的全球首个400G超以太网卡,AI加速系统的重要组成部分,挺迷你的,而明年的下一代可以做到800G也就是80万兆!
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com