英伟达发布最强 AI 加速卡：性能提升约5到30倍！

3 月 19 日消息，英伟达最强 AI 加速卡--Blackwell GB200，正式发布，今年发货！

【1】Blackwell GPU，具体配置参数，汇总如下：

◆ 制程工艺：采用第二代台积电的 4 纳米（4NP）工艺，共有 2080 亿个晶体管！

◆ AI 性能：可达20 petaflops，约H100（4 petaflops）5倍！

◆ 浮点算力：Blackwell Die领先Hopper Die约25%；

——每个封装中配两颗Blackwell 芯片，综合性能提升约250%。

◆ FP4 八精度浮点算力：性能领先约400%；

——受内存容量和带宽配置影响，实际性能将进一步提高。

【2】Blackwell GB200，具体配置参数，汇总如下：

◆ 规格架构：2*B200 Blackwell GPU+Grace CPU（Arm架构）

◆ 推理大语言模型性能：相较H100提升约30 倍，成本和能耗降至约4%！❷注释

【3】企业服务

◆ 英伟达称，其系统可扩展至数万 GB200 超级芯片，并通过其新型 Quantum-X800 InfiniBand（最多 144 个连接）或 Spectrum-X800 以太网（最多 64 个连接）与 800Gbps 网络连接在一起。

◆ 英伟达表示，亚马逊、谷歌、微软和甲骨文都已计划在其云服务产品中提供 NVL72 机架。

——亚马逊 AWS 已计划采购由 2 万片 GB200 芯片组建的服务器集群，可以部署 27 万亿个参数的模型。

❶注释：英伟达使用 10 TB / sec NVLink 5.0 连接每块 Die，官方称该链路为 NV-HBI。Blackwell complex 的 NVLink 5.0 端口可提供 1.8 TB / 秒的带宽，是 Hopper GPU 上 NVLink 4.0 端口速度的两倍。

❷注释：在此之前，训练一个 1.8 万亿个参数的模型，需要 8000 个 Hopper GPU 和 15 兆瓦的电力。Nvidia 首席执行官表示，如今2000 个 Blackwell GPU 就能完成这项工作，耗电量仅为 4 兆瓦。在参数为 1,750 亿的 GPT-3 LLM 基准测试中，Nvidia 称 GB200 的性能是 H100 的 7 倍，而训练速度是 H100 的 4 倍。