3月18日淩晨,英偉達召開萬眾矚目的GTC 2024大會,CEO黃仁勳Jenson Huang發表發表GTC 2024的主題演講《見證AI的變革時刻》。 黃仁勳在演講中正式發表下一代GPU架構平臺和新一代晶元,並分享最新的一站式AI超算解決方案、軟體更新及AI生態體系。 我們將從三大部分概括此次產品和生態更新對產業鏈的影響。
一、新架構晶片B200的AI性能為上一代H100的5倍
1)新的GPU架構Blackwell:Blackwell 的名字旨在紀念第一位入選美國國家科學院的黑人學者、數學家和博弈論學家 David Harold Blackwell。 Blackwell繼承了 Hopper GPU 架構,擁有 2080 億個晶體管,採用定製的、雙 reticle 的台積電 4NP(4N 工藝的改進版本)製程工藝,兩塊小晶元之間的互聯速度高達 10TBps,可以大幅度提高處理能力,Blackwell 架構的 GPU 預計將於今年晚些時候發貨,將成為亞馬遜、微軟、Alphabet Inc.旗下谷歌、甲骨文等全球最大數據中心運營商部署的新計算機和其他產品的基石。
2)Blackwell架構的新晶片B200、GB200晶元:採用 Blackwell 架構的 GPU 分為了 B200 和 GB200 產品系列,GB200將兩個B200 Blackwell GPU與一個基於Arm的Grace CPU進行配對。 Blackwell的關鍵改進在於引入第二代 Transformer 引擎,它支援了 FP4 和 FP6,使得計算、頻寬和模型大小翻了一番。
B200:採用雙晶片設計,晶體管數量達到2080億個,搭配8顆HBM3e記憶體(比Hopper架構的H200多了2顆),記憶體達到192GB,基於第五代NVLink,帶寬達到1.8TB/s,單顆B200 GPU的AI性能在FP4精度下達20 PFLOPs(即每秒2億億次),是H100的5倍;按FP8精度看,B200大概是H100性能的2.5倍。 以前訓練一個 1.8 萬億參數的模型以前需要 8000 個 GPU 和 15 兆瓦的電力,如今黃仁勳表示,2000 個 Blackwell GPU 在僅消耗 4 兆瓦電力的情況下就能完成這一任務。 新架構相比Hopper架構和Ampere架構有了巨幅提升,最大可支援10萬億參數的模型的訓練。
GB200:包含2個Blackwell GPU+1個基於Arm的Grace CPU(72核Neoverse V2),採用900GB/s的NVlink-C2C連接,合計384GB HBM3e。 官方稱GB200的推理性能在Hopper平台的基礎上提升6倍,尤其是採用相同數量的GPU,在萬億參數Moe模型上進行基準測試,GB200的性能是Hopper平臺的30倍,並將成本和能耗降低高達 25倍。
3)基於GB200和B200打造的超算平臺:
DGX GB200:基於 Blackwell 的 AI 算力將以名為 DGX GB200 的完整伺服器形態提供給使用者,每個DGX GB200系統包括 36 顆 NVIDIA Grace CPU 和 72 塊 Blackwell GPU,這些超級晶片通過第五代 NVLink 連接成一台超級計算機。 一個GB200 NVL72機櫃可以訓練27萬億參數的模型,而作為對比,GPT-4 的參數模型約為 1.8萬億。 英偉達表示亞馬遜 AWS 已計劃採購由 2 萬片 GB200 晶片組建的伺服器集群。
DGX SuperPOD:再往上擴展,Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統構建而成,這些系統通過 NVIDIA Quantum InfiniBand 網路連接,可擴展到數萬個 GB200 超級晶片。 用戶可通過 NVLink 連接 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU,從而獲得海量共用顯存空間,來訓練下一代 AI 模型。 其系統可擴展至數萬 GB200 超級晶片,並通過其新型 Quantum-X800 InfiniBand(最多 144 個連接)或 Spectrum-X800 乙太網(最多 64 個連接)與 800Gbps 網路連接在一起。
小结:此次Blackwell晶元架構創新較小,但提升主要來自系統、NVlink網路、記憶體、軟體等,對系統的提升十分明顯。 對英偉達而言,去年推出的B100將以性價比去彌補H系列到B系列的需求轉換,GB200則是在系統層面給出了更好的解決方案。
對產業鏈的影響: 1)縮短訓練、推理時間及成本;2)和半導體、雲廠商的合作加速AI場景落地:
• Synopsys:台積電使用的計算光刻專案,台積電宣佈英偉達CULiTHO投入使用
• Cadence:晶元EDA、Cadence copilot
• AWS:正在構建222ExaFLOPS的系統,並且正在合作通過CUDA加速SageMaker AI、Bedrock AI,雙方在Omniverse、Isaac Sim上展開合作,AWS Health已經集成了Nvidia Health;
• Google:GCP已經擁有A100、H100、T4、L4等一系列CUDA GPU,並在上面部署Gemma;
• 甲骨文:加速Oracle資料庫
• 微軟:打造最大的英偉達infiniband超級計算機
• 緯創:打造Omniberse方案
二、第五代NVLink具備更強的連接(NVlink)能力
NVLink是英偉達開發的CPU和GPU之間高速互聯通道,在記憶體牆無法突破的情況下,最大化提升CPU和GPU之間通信的效率,於2016年在基於Pascal架構的GP100晶元和P100運算卡上率先採用,當時的頻寬為160GB/ s,到H100採用的第四代NVLink,其頻寬已經達到900GB/s,而B200採用的第五代NVLink 帶寬已經突破1.8TB/s。
GB200 NVL72:除了架構和新晶元的算力提高,為了處理大規模數據中心的GPU交互問題,此次NVlink也得到升級。 英偉達表示此前僅由16個 GPU 組成的集群會在相互通信上花費60%的時間,而只有40%的時間用於實際計算,現在英偉達的NVLink Switch Chip 可以讓所有這些晶片互聯起來,全速運轉沒有瓶頸(1.8TB/s,幾乎比上代快 10 倍),並幫助構建了 DGX GB200 NVL72。 NVLink Switch支援與多個NVLink連接,實現NVLink在單節點、節點之間互聯,進而創建更高頻寬的GPU集群,基於最新的NVLink Switch晶片(台積電4nm工藝,500億個晶體管),可實現576顆GPU組成計算集群,上一代產品僅支援到256個GPU。
GB200 NVL72擁有9個NVSwitch機架,總共搭載18個GB200節點機架(即36個Grace CPU和72個Blackwell GPU集成到一個液冷機櫃中,用第五代NVlink互連),可實現總計FP8精度下訓練算力720 petaflops的AI訓練性能,或是FP4精度下1,440 petaflops(1.4 exaflops)的推理性能。 2016 年黃仁勳將第一台 DGX 系統給 OpenAI 才有了如今的 ChatGPT,那個時候 DGX 的算力為0.17Petaflops,現在GB200算力是以 Exaflop 計算的。
GB200 NVL72機櫃採用銅纜互聯而非光方案,單個機櫃有5000條電纜,提供整個機櫃130TB/s的互聯總頻寬,銅纜長度共2英里,成本是光方案的1/6,節省了光方案中收發器和retimer的20kw功耗。
三、構建AI生態體系
除了硬體系統,英偉達也利用生成式 AI 構建了一系列元宇宙、工業數位孿生、機器人訓練軟體體系。
1)元宇宙和數位孿生:英偉達表示,它正在將 Omniverse 企業技術引入蘋果,想讓開發人員通過 Vision Pro 在 AR/VR 設置中使用 Omniverse 工具。 英偉達展示了設計師是如何通過 Vision Pro 使用汽車配置工具來操縱車輛,然後虛擬地進入其中。 人們可以通過 Omniverse Cloud API 以及通過雲端直接流式傳輸到 Vision Pro 的圖形傳輸網路來做到這一點。
2)機器人:黃仁勛認為,機器人的ChatGPT時刻可能即將到來。 演講中他展示了多個由 GR00T 驅動的人形機器人如何完成各種任務,包括來自 Agility Rootics、Apptronik、傅利葉智慧(Fourier Intelligence) 和宇樹科技(Unitree Robotics) 的機器人產品。 英偉達還開發了一種新型「機器人大腦」計算晶元 Jetson Thor,能夠執行複雜的任務並使用 Transformer 引擎處理多個感測器。 英偉達的「大客戶」OpenAI,一直在使用自己的 AI 模型來為一家名為 Figure 的初創公司的人形機器人提供支援。
3)軟體服務:英偉達發佈了集成AI開發軟體微服務系統NIM,通過直接提供多行業、多模態的專有模型,以及基於NeMo Retriver的專有數據注入系統,企業可藉由NIM快捷部署公司級專有模型。 NIM軟體還將説明AI在配備GPU的筆記型電腦上運行,而不是在雲端的伺服器上。 NIM將在將要發佈的NVIDIA AI企業版第五版中搭載,單GPU的企業版使用許可權包年需要4500美金,小時租金為1美金每小時。
黃仁勳認為,與現在寫一行行代碼不同,未來可能就要靠一堆NIMs(Nvidia inference micro service),用與AI聊天的形式調動一堆NIMS來完成訓練、應用的部署。 假如一名開發者有一個有趣的模型,希望向人們推廣,就可以把它放到NIM中。 英偉達會確保它可以在所有的GPU上運行,這樣模型的受眾就大大擴展了。
在模型支援方面,NIM 微服務的可選項也很多,它支援 Nvidia 自己的模型合作庫,來自 AI21 Labs,Cohere等合作夥伴的模型,以及來自Meta、Hugging Face、Stability AI 和Google的開源模型。 同時客戶可以通過 Nvidia AI Enterprise 平臺以及 Microsoft Azure AI、Google Cloud Vertex AI、Google Kubernetes Engine 和 Amazon SageMaker 訪問 NIM 微服務,並與包括 LangChain、LlamaIndex 和 Deepset 在內的 AI 框架集成,基本對所有市面上主流模型都完成了覆蓋。
对产业链的影响:1)英偉達提高未來軟體營收空間,通過與亞馬遜、谷歌、微軟以及Oracle等雲服務巨頭合作,未來將通過雲服務的模式,出售GB200和NIM等的接入權;除了頭部巨頭客戶,英偉達也加速在向中小客戶市場滲透,未來將有更多的企業和開發者能夠獲取到英偉達的算力,同時也能提升後者的營收規模;2)加速AI推理落地場景。