英伟达GTC 2024 Keynote Highlights——见证AI的变革时刻

3月18日凌晨,英伟达召开万众瞩目的GTC 2024大会,CEO黄仁勋Jenson Huang发表发表GTC 2024的主题演讲《见证AI的变革时刻》。黄仁勋在演讲中正式发表下一代GPU架构平台和新一代芯片,并分享最新的一站式AI超算解决方案、软件更新及AI生态体系。我们将从三大部分概括此次产品和生态更新对产业链的影响。

一、新架构芯片B200的AI性能为上一代H100的5倍

1)新的GPU架构Blackwell:Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell。Blackwell继承了 Hopper GPU 架构,拥有 2080 亿个晶体管,采用定制的、双 reticle 的台积电 4NP(4N 工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达 10TBps,可以大幅度提高处理能力,Blackwell 架构的 GPU 预计将于今年晚些时候发货,将成为亚马逊、微软、Alphabet Inc.旗下谷歌、甲骨文等全球最大数据中心运营商部署的新计算机和其他产品的基石。

2)Blackwell架构的新芯片B200、GB200芯片:采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU进行配对。Blackwell的关键改进在于引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得计算、带宽和模型大小翻了一番。

B200:采用双芯片设计,晶体管数量达到2080亿个,搭配8颗HBM3e内存(比Hopper架构的H200多了2颗),内存达到192GB,基于第五代NVLink,带宽达到1.8TB/s,单颗B200 GPU的AI性能在FP4精度下达20 PFLOPs(即每秒2亿亿次),是H100的5倍;按FP8精度看,B200大概是H100性能的2.5倍。以前训练一个 1.8 万亿参数的模型以前需要 8000 个 GPU 和 15 兆瓦的电力,如今黄仁勋表示,2000 个 Blackwell GPU 在仅消耗 4 兆瓦电力的情况下就能完成这一任务。新架构相比Hopper架构和Ampere架构有了巨幅提升,最大可支持10万亿参数的模型的训练。

GB200:包含2个Blackwell GPU+1个基于Arm的Grace CPU(72核Neoverse V2),采用900GB/s的NVlink-C2C连接,合计384GB HBM3e。官方称GB200的推理性能在Hopper平台的基础上提升6倍,尤其是采用相同数量的GPU,在万亿参数Moe模型上进行基准测试,GB200的性能是Hopper平台的30倍,并将成本和能耗降低高达 25倍。

3)基于GB200和B200打造的超算平台:

DGX GB200:基于 Blackwell 的 AI 算力将以名为 DGX GB200 的完整服务器形态提供给用户,每个DGX GB200系统包括 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU,这些超级芯片通过第五代 NVLink 连接成一台超级计算机。一个GB200 NVL72机柜可以训练27万亿参数的模型,而作为对比,GPT-4 的参数模型约为 1.8万亿。英伟达表示亚马逊 AWS 已计划采购由 2 万片 GB200 芯片组建的服务器集群。

DGX SuperPOD:再往上扩展,Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来训练下一代 AI 模型。其系统可扩展至数万 GB200 超级芯片,并通过其新型 Quantum-X800 InfiniBand(最多 144 个连接)或 Spectrum-X800 以太网(最多 64 个连接)与 800Gbps 网络连接在一起。

小结:此次Blackwell芯片架构创新较小,但提升主要来自系统、NVlink网络、内存、软件等,对系统的提升十分明显。对英伟达而言,去年推出的B100将以性价比去弥补H系列到B系列的需求转换,GB200则是在系统层面给出了更好的解决方案。

对产业链的影响: 1)缩短训练、推理时间及成本;2)和半导体、云厂商的合作加速AI场景落地:

  • Synopsys:台积电使用的计算光刻项目,台积电宣布英伟达CULiTHO投入使用
  • Cadence:芯片EDA、Cadence copilot
  • AWS:正在构建222ExaFLOPS的系统,并且正在合作通过CUDA加速SageMaker AI、Bedrock AI,双方在Omniverse、Isaac Sim上展开合作,AWS Health已经集成了Nvidia Health;
  • Google:GCP已经拥有A100、H100、T4、L4等一系列CUDA GPU,并在上面部署Gemma;
  • 甲骨文:加速Oracle数据库
  • 微软:打造最大的英伟达infiniband超级计算机
  • 纬创:打造Omniberse方案

二、第五代NVLink具备更强的连接(NVlink)能力

NVLink是英伟达开发的CPU和GPU之间高速互联通道,在内存墙无法突破的情况下,最大化提升CPU和GPU之间通信的效率,于2016年在基于Pascal架构的GP100芯片和P100运算卡上率先采用,当时的带宽为160GB/s,到H100采用的第四代NVLink,其带宽已经达到900GB/s,而B200采用的第五代NVLink 带宽已经突破1.8TB/s。

GB200 NVL72:除了架构和新芯片的算力提高,为了处理大规模数据中心的GPU交互问题,此次NVlink也得到升级。英伟达表示此前仅由 16 个 GPU 组成的集群会在相互通信上花费 60% 的时间,而只有 40% 的时间用于实际计算,现在英伟达的 NVLink Switch Chip 可以让所有这些芯片互联起来,全速运转没有瓶颈(1.8TB/s,几乎比上代快 10 倍),并帮助构建了 DGX GB200 NVL72。NVLink Switch支持与多个NVLink连接,实现NVLink在单节点、节点之间互联,进而创建更高带宽的GPU集群,基于最新的NVLink Switch芯片(台积电4nm工艺,500亿个晶体管),可实现576颗GPU组成计算集群,上一代产品仅支持到256个GPU。

GB200 NVL72拥有9个NVSwitch机架,总共搭载18个GB200节点机架(即36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,用第五代NVlink互连),可实现总计FP8精度下训练算力720 petaflops的AI训练性能,或是FP4精度下1,440 petaflops(1.4 exaflops)的推理性能。2016 年黄仁勋将第一台 DGX 系统给 OpenAI才有了如今的 ChatGPT,那个时候 DGX 的算力为0.17Petaflops,现在GB200算力是以 Exaflop 计算的。

GB200 NVL72机柜采用铜缆互联而非光方案,单个机柜有5000条电缆,提供整个机柜130TB/s的互联总带宽,铜缆长度共2英里,成本是光方案的1/6,节省了光方案中收发器和retimer的20kw功耗。


三、构建AI生态体系

除了硬件系统,英伟达也利用生成式 AI 构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

1)元宇宙和数字孪生:英伟达表示,它正在将 Omniverse 企业技术引入苹果,想让开发人员通过 Vision Pro 在 AR/VR 设置中使用 Omniverse 工具。英伟达展示了设计师是如何通过 Vision Pro 使用汽车配置工具来操纵车辆,然后虚拟地进入其中。人们可以通过 Omniverse Cloud API 以及通过云端直接流式传输到 Vision Pro 的图形传输网络来做到这一点。

2)机器人:黄仁勋认为,机器人的ChatGPT时刻可能即将到来。演讲中他展示了多个由 GR00T 驱动的人形机器人如何完成各种任务,包括来自 Agility Rootics、Apptronik、傅利叶智能(Fourier Intelligence) 和宇树科技(Unitree Robotics) 的机器人产品。英伟达还开发了一种新型「机器人大脑」计算芯片 Jetson Thor,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器。英伟达的「大客户」OpenAI,一直在使用自己的 AI 模型来为一家名为 Figure 的初创公司的人形机器人提供支持。

3)软件服务:英伟达发布了集成AI开发软件微服务系统NIM,通过直接提供多行业、多模态的专有模型,以及基于NeMo Retriver的专有数据注入系统,企业可借由NIM快捷部署公司级专有模型。NIM软件还将帮助AI在配备GPU的笔记本电脑上运行,而不是在云端的服务器上。NIM将在将要发布的NVIDIA AI企业版第五版中搭载,单GPU的企业版使用权限包年需要4500美金,小时租金为1美金每小时。

黄仁勋认为,与现在写一行行代码不同,未来可能就要靠一堆NIMs(Nvidia inference micro service),用与AI聊天的形式调动一堆NIMS来完成训练、应用的部署。假如一名开发者有一个有趣的模型,希望向人们推广,就可以把它放到NIM中。英伟达会确保它可以在所有的GPU上运行,这样模型的受众就大大扩展了。

在模型支持方面,NIM 微服务的可选项也很多,它支持 Nvidia 自己的模型合作库,来自 AI21 Labs,Cohere等合作伙伴的模型,以及来自Meta、Hugging Face、Stability AI 和Google的开源模型。同时客户可以通过 Nvidia AI Enterprise 平台以及 Microsoft Azure AI、Google Cloud Vertex AI、Google Kubernetes Engine 和 Amazon SageMaker 访问 NIM 微服务,并与包括 LangChain、LlamaIndex 和 Deepset 在内的 AI 框架集成,基本对所有市面上主流模型都完成了覆盖。

对产业链的影响:1)英伟达提高未来软件营收空间,通过与亚马逊、谷歌、微软以及Oracle等云服务巨头合作,未来将通过云服务的模式,出售GB200和NIM等的接入权;除了头部巨头客户,英伟达也加速在向中小客户市场渗透,未来将有更多的企业和开发者能够获取到英伟达的算力,同时也能提升后者的营收规模;2)加速AI推理落地场景。