五月天成人小说,中文字幕亚洲欧美专区,久久妇女,亚洲伊人久久大香线蕉综合,日日碰狠狠添天天爽超碰97

下一代GPU發(fā)布,硅光隆重登場,英偉達(dá)還能火多久?

年度科技盛宴GTC昨晚正式拉開帷幕。會(huì)上,黃仁勛透露,美國四大云端龍頭今年已購360 萬個(gè) Blackwell 芯片,預(yù)計(jì)2028 年資料中心資本支出規(guī)模突破1萬億美元。

編者按:本文來自微信公眾號(hào) 半導(dǎo)體行業(yè)觀察(ID:icbank),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

年度科技盛宴GTC昨晚正式拉開帷幕。會(huì)上,黃仁勛透露,美國四大云端龍頭今年已購360 萬個(gè) Blackwell 芯片,預(yù)計(jì)2028 年資料中心資本支出規(guī)模突破1萬億美元。

年度科技盛宴GTC昨晚正式拉開帷幕。

會(huì)上,黃仁勛透露,美國四大云端龍頭今年已購360 萬個(gè) Blackwell 芯片,預(yù)計(jì)2028 年資料中心資本支出規(guī)模突破1萬億美元。他同時(shí)透露,透露,Blackwell 架構(gòu)的芯片,已經(jīng)全面投產(chǎn),客戶的需求令人難以置信。

黃仁勛甚至開玩笑說他是”主要營收破壞者“,因?yàn)樗H低了英偉達(dá)的舊款Hopper 系列,展示了Blackwell 如何提供比舊款Hopper 系列更好的推理性能。

黃仁勛說,由于這些優(yōu)勢(shì),當(dāng)Blackwell 開始批量發(fā)貨時(shí),公司甚至無法免費(fèi)贈(zèng)送Hopper 產(chǎn)品,但他表示“當(dāng)科技發(fā)展如此之快”且“工作量如此之大”時(shí),最新一代芯片將帶來巨大的好處。

于是,在大會(huì)上,黃仁勛正式揭開了英偉達(dá)新GPU路線圖。

Blackwell Ultra,今年重點(diǎn)

本屆GTC上,NVIDIA 首先通過其 Blackwell Ultra 平臺(tái)升級(jí) Blackwell,提供高達(dá) 288 GB 的 HBM3e 內(nèi)存。不過,Nvidia 并未我們期望那樣,透露 Blackwell Ultra 比原版 Blackwell 有多好的數(shù)據(jù)。

在被記者要求提供更多細(xì)節(jié)時(shí),英偉達(dá)方面表示,Blackwell Ultra GPU(GB300 和 B300)與 Blackwell GPU(GB200 和 B200)是不同的芯片。Blackwell Ultra GPU 旨在滿足測(cè)試時(shí)間擴(kuò)展推理的需求,F(xiàn)P4 計(jì)算能力提高了 1.5 倍。這是否意味著 B300 是一款物理上更大的芯片,可以在封裝中容納更多張量核心?

而在此前與記者的一次事先簡報(bào)會(huì)上,Nvidia 透露,單個(gè) Ultra 芯片將提供與 Blackwell 相同的 20 petaflops AI 性能,但現(xiàn)在擁有 288GB 的HBM3e 內(nèi)存,而不是 192GB。同時(shí),Blackwell Ultra DGX GB300“Superpod”集群將提供與 Blackwell 版本相同的 288 個(gè) CPU、576 個(gè) GPU 和 11.5 exaflops FP4 計(jì)算能力,但擁有 300TB 的內(nèi)存,而不是 240TB。

不過,Nvidia 將其新款 Blackwell Ultra 與H100 進(jìn)行了比較,后者是 2022 年推出的芯片,最初為 Nvidia 的 AI 奠定了基礎(chǔ),領(lǐng)先的公司可能希望對(duì)其進(jìn)行升級(jí):Nvidia 表示,相較于H100 ,Blackwell Ultra提供 1.5 倍的 FP4 推理能力,可以顯著加快“AI 推理”速度,NVL72 集群能夠運(yùn)行 DeepSeek-R1 671B 的交互式副本,只需 10 秒即可給出答案,而 H100 則需要 1.5 分鐘。Nvidia 表示,這是因?yàn)樗棵肟梢蕴幚?1,000 個(gè) token,是 Nvidia 2022 年芯片的十倍。

英偉達(dá)在官方新聞稿中表示,NVIDIA GB300 NVL72 采用機(jī)架級(jí)設(shè)計(jì),連接 72 個(gè) Blackwell Ultra GPU 和 36 個(gè)基于 Arm Neoverse 的NVIDIA Grace CPU,充當(dāng)專為測(cè)試時(shí)間擴(kuò)展而構(gòu)建的單個(gè)大型 GPU。借助 NVIDIA GB300 NVL72,AI 模型可以訪問平臺(tái)增強(qiáng)的計(jì)算能力,探索問題的不同解決方案,并將復(fù)雜請(qǐng)求分解為多個(gè)步驟,從而獲得更高質(zhì)量的響應(yīng)。

英偉達(dá)指出,GB300 NVL72 預(yù)計(jì)還將在NVIDIA DGX Cloud上推出,這是一個(gè)端到端、完全托管的領(lǐng)先云 AI 平臺(tái),可通過軟件、服務(wù)和 AI 專業(yè)知識(shí)優(yōu)化性能,以應(yīng)對(duì)不斷變化的工作負(fù)載。配備 DGX GB300 系統(tǒng)的NVIDIA DGX SuperPOD 采用 GB300 NVL72 機(jī)架設(shè)計(jì),為客戶提供交鑰匙 AI 工廠。

與 Hopper 一代相比,NVIDIA HGX B300 NVL16 在大型語言模型上的推理速度提高了 11 倍,計(jì)算能力提高了 7 倍,內(nèi)存增加了 4 倍,從而為 AI 推理等最復(fù)雜的工作負(fù)載提供了突破性的性能。

此外,Blackwell Ultra 平臺(tái)還適用于以下應(yīng)用:

代理式人工智能,它使用復(fù)雜的推理和迭代規(guī)劃來自主解決復(fù)雜的多步驟問題。人工智能代理系統(tǒng)超越了指令遵循。它們可以推理、規(guī)劃并采取行動(dòng)來實(shí)現(xiàn)特定目標(biāo);

物理人工智能,使公司能夠?qū)崟r(shí)生成合成的、逼真的視頻,以大規(guī)模訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車等應(yīng)用程序。

關(guān)于這顆芯片,另一個(gè)有趣的點(diǎn)是一些公司將能夠購買單個(gè) Blackwell Ultra 芯片:Nvidia 宣布推出一款名為 DGX Station 的臺(tái)式電腦,該電腦搭載單個(gè) GB300 Blackwell Ultra、784GB 統(tǒng)一系統(tǒng)內(nèi)存、內(nèi)置 800Gbps Nvidia 網(wǎng)絡(luò),以及承諾的 20 petaflops AI 性能。華碩、戴爾和惠普將與 Boxx、Lambda 和 Supermicro 一起銷售臺(tái)式電腦版本。

明年的Vera Rubin,下一代的Feynman

但明年,公司將將憑借其全新的 CPU 和 GPU 平臺(tái)(代號(hào)為 Rubin 和 Vera)將事情推向新的高度。

Vera Rubin,首次在 2024 年臺(tái)北國際電腦展上亮相,目前計(jì)劃于 2026 年下半年發(fā)布。這款以著名天文學(xué)家命名的 GPU將具有數(shù)十TB 的內(nèi)存,并配備名為 Vera 的定制 Nvidia 設(shè)計(jì) CPU。

Nvidia 表示,Vera Rubin 將比其前代產(chǎn)品Grace Blackwell有顯著的性能提升,特別是在 AI 訓(xùn)練和推理方面。

具體而言,該系統(tǒng)有兩個(gè)主要組件:一個(gè)稱為 Vera 的 CPU 和一個(gè)稱為 Rubin 的新 GPU 設(shè)計(jì)。它以天文學(xué)家 Vera Rubin 的名字命名。

首先看其Vera CPU,表示,英偉達(dá)表示,Vera 是 Nvidia 的首款定制 CPU 設(shè)計(jì),它基于名為 Olympus 的核心設(shè)計(jì),將取代當(dāng)前的 Grace CPU。Vera 將是一個(gè)相對(duì)較小且緊湊的 CPU,具有 88 個(gè)定制 ARM 內(nèi)核和 176 個(gè)線程。它還將有一個(gè) 1.8 TB/s 的 NVLink 內(nèi)核到內(nèi)核接口,用于與 Rubin GPU 連接。

以前,當(dāng) Nvidia 需要 CPU 時(shí),它會(huì)使用Arm的現(xiàn)成設(shè)計(jì)。但是,高通、蘋果等已經(jīng)開發(fā)出定制 Arm 核心設(shè)計(jì)的公司表示,它們能夠?qū)崿F(xiàn)更加量身定制,并釋放出更好的性能。于是,英偉達(dá)也定制了 Vera,他們表示,新設(shè)計(jì)將比去年的 Grace Blackwell 芯片中使用的 Grace CPU 快兩倍。

其次是Rubin GPU,按照Nvidia所說,Rubin 實(shí)際上是兩個(gè) GPU。從 Rubin 開始,Nvidia 表示,當(dāng)它將兩個(gè)或多個(gè)芯片組合成一個(gè)芯片時(shí),它會(huì)將它們稱為獨(dú)立的 GPU。來到數(shù)據(jù)方面,據(jù)介紹,Rubin 還將提供 1.2 ExaFLOPS FP8 訓(xùn)練,而B300只有0.36 ExaFLOPS。總體而言,計(jì)算性能提高了 3.3 倍。同時(shí),Rubin還將標(biāo)志著從 HBM3/HBM3e 向 HBM4 的轉(zhuǎn)變,其中 HBM4e 用于 Rubin Ultra。每 GPU 的內(nèi)存容量仍為 288GB,與 B300 相同,但帶寬將從 8 TB/s 提高到 13 TB/s。還將有一個(gè)更快的 NVLink,將吞吐量翻倍至 260 TB/s,機(jī)架之間的新 CX9 鏈路速度為 28.8 TB/s(帶寬是 B300 和 CX8 的兩倍)。

與CPU搭配后,Vera Rubin 每個(gè)芯片可提供 50 petaflops浮點(diǎn)運(yùn)算的 FP4 推理性能。在完整的 NVL144 機(jī)架中配置時(shí),該系統(tǒng)可提供 3.6 exaflops浮點(diǎn)運(yùn)算的 FP4 推理計(jì)算能力,是 Blackwell Ultra 在類似機(jī)架配置中的 1.1 exaflops浮點(diǎn)運(yùn)算能力的 3.3 倍。

上圖是 Rubin NVL144 機(jī)架,它將與現(xiàn)有的 Blackwell NVL72 基礎(chǔ)設(shè)施兼容。下圖中,我們提供了 Blackwell Ultra B300 NVL72 的相同配置數(shù)據(jù),以供比較。B300 NVL72 提供 1.1 PFLOPS 密集 FP4 計(jì)算,而 Rubin NVL144(同樣擁有 144 個(gè) GPU 芯片)將提供 3.6 PFLOPS 密集 FP4。

黃仁勛還宣布了將于 2027 年下半年推出的 Rubin Ultra。Rubin Ultra 將采用 NVL576 機(jī)架配置,并配備帶有四個(gè)標(biāo)線大小芯片的獨(dú)立 GPU,也就是將四個(gè)芯片組合成一個(gè)芯片,使 Rubin 的速度翻倍,并將其稱為四個(gè) GPU,每個(gè)芯片可提供 100 petaflops 的 FP4 精度(一種用于表示和處理 AI 模型中數(shù)字的 4 位浮點(diǎn)格式)。

在機(jī)架層面,Rubin Ultra 將提供每秒 15 exaflops浮點(diǎn)運(yùn)算的 FP4 推理計(jì)算和每秒 5 exaflops浮點(diǎn)運(yùn)算的 FP8 訓(xùn)練性能,比 Rubin NVL144 配置強(qiáng)大約四倍。每個(gè) Rubin Ultra GPU 將包含 1TB 的 HBM4e 內(nèi)存,整個(gè)機(jī)架包含 365TB 的快速內(nèi)存。

不過,這里的情況有點(diǎn)奇怪。Nvidia 列出了 4.6 PB/s 的 HBM4e 帶寬,但 576 個(gè) GPU 的帶寬相當(dāng)于每個(gè) GPU 8 TB/s。這似乎比以前每個(gè) GPU 的帶寬要少,但這可能是四個(gè) GPU 芯片如何連接在一起的一個(gè)因素。每四個(gè)標(biāo)線大小的 GPU 還將有 1TB 的 HBM4e,具有 100 PetaFLOPS 的 FP4 計(jì)算能力。

NVLink7 接口速度將比 Rubin接口快 6 倍,吞吐量為 1.5 PB/s。CX9 互連也將實(shí)現(xiàn)機(jī)架間 115.2 TB/s 的 4 倍提升,這可能是通過將鏈路數(shù)量增加四倍來實(shí)現(xiàn)的。

根據(jù)介紹,英偉達(dá)下一代未來還有 Feynman GPU。黃仁勛在主題演講中沒有透露 Feynman 架構(gòu)的細(xì)節(jié),該架構(gòu)以美國理論物理學(xué)家理查德·費(fèi)曼 (Richard Feynman) 命名,它采用了 Vera CPU。Nvidia 計(jì)劃在 2028 年某個(gè)時(shí)候?qū)?Feynman 推向市場,取代 Rubin Vera。

硅光,英偉達(dá)掀起新篇章

在談GPU和CPU的同時(shí),英偉達(dá)在本屆GTC上還帶來了公司在硅光上的新篇章。

知名媒體The Next Platform表示,談到網(wǎng)絡(luò)時(shí),規(guī)則很簡單。對(duì)于大規(guī)模分布式、基本不連貫的應(yīng)用程序的超大規(guī)模網(wǎng)絡(luò),規(guī)則是:盡可能路由,必要時(shí)交換(Route when you can, and switch if you must)。對(duì)于對(duì)延遲和帶寬都敏感的 HPC 和 AI 工作負(fù)載,我們堅(jiān)持古老的格言:盡可能交換,必要時(shí)路由(Switch when you can, route if you must)。而對(duì)于網(wǎng)絡(luò)布線,我們的選擇是:盡可能使用銅線,必要時(shí)使用光纖(Copper when you can, fiber when you must)。

當(dāng)中,Nvidia 機(jī)架式 GB200 NVL72 系統(tǒng)背板的大量銅纜能充分說明最后一條原則,該系統(tǒng)由 36 個(gè) MGX 服務(wù)器節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)都有兩個(gè)“Blackwell”B200 GPU 加速器與一個(gè)“Grace”CG100 Arm 服務(wù)器處理器配對(duì),組成一個(gè)共享內(nèi)存計(jì)算引擎集群,該集群有 36 個(gè) CPU 和 72 個(gè) GPU,使用 NVSwitch 4 互連來創(chuàng)建 CPU 和 GPU 內(nèi)存結(jié)構(gòu),需要超過 5000 條粗銅纜,由以 224 Gb/秒運(yùn)行的 NVLink 5 SerDes 直接驅(qū)動(dòng)。由于所有這些通信都在機(jī)架內(nèi)部進(jìn)行,因此銅纜足以(雖然很麻煩)在 GPU 之間提供更涼爽、高帶寬的管道,CPU 懸掛在其上。

不過,這種方式也會(huì)面臨挑戰(zhàn),因?yàn)槟忝看螌~線上的帶寬增加一倍,線路上的垃圾也會(huì)增加一倍,因此您只能在一半的線路長度上獲得干凈的信號(hào)。當(dāng)(不是如果)Nvidia 將其 NVLink 6 端口的帶寬與其下一代“Rubin”GPU 加速器一起增加一倍時(shí),這意味著它只能跨越半個(gè)機(jī)架的 GPU,如果它們的運(yùn)行溫度也更高,那么它可能遠(yuǎn)遠(yuǎn)少于半個(gè)機(jī)架。這顯然不是一個(gè)目標(biāo)。

因此,在 GPU 上甚至在 CPU 上切換到 CPO 有了最佳理由,因?yàn)槲磥淼摹癡era”CPU 上也使用 NVLink 6 端口。無論如何,隨著 AI 推理工作負(fù)載的增長,Nvidia 希望將 GPU 的 NUMA 域增加 2 倍或 4 倍,但將其減半。

不過,在本屆的GTC大會(huì)上,英偉達(dá)并沒有提出針對(duì) GPU 或與之相連的 HBM3E 或 HBM4 內(nèi)存組進(jìn)行 CPO。不過,他們公布了其采用硅光子學(xué)并在其 Quantum InfiniBand 和 Spectrum Ethernet 系列交換機(jī)中部署共封裝光學(xué)器件 (CPO) 的計(jì)劃,這不僅是一個(gè)令人興奮的發(fā)展,而且事實(shí)證明它將在很大程度上降低數(shù)據(jù)中心規(guī)模 AI 系統(tǒng)中網(wǎng)絡(luò)的功率需求。

網(wǎng)絡(luò)中光學(xué)器件的功耗巨大,資本支出也巨大。有傳聞稱,我們?cè)啻温犝f,數(shù)據(jù)中心規(guī)模集群的大部分成本都來自鏈路兩端的光學(xué)收發(fā)器以及它們之間的光纜。將交換機(jī)連接到網(wǎng)絡(luò)接口卡的一些部件占網(wǎng)絡(luò)成本的 75% 到 80%,而交換機(jī)和 NIC 占另外 20% 到 25%。這聽起來很瘋狂。

從英偉達(dá)他們提供的兩張圖表讓我們了解到數(shù)據(jù)中心運(yùn)營商在使用光鏈路交叉連接數(shù)據(jù)中心的服務(wù)器和存儲(chǔ)時(shí)面臨的問題。

如上圖所示,這是一個(gè)基于使用服務(wù)器節(jié)點(diǎn)的數(shù)據(jù)中心,每個(gè)服務(wù)器節(jié)點(diǎn)中每四個(gè) GPU 配備兩個(gè) CPU(如 GB200 NVL72 機(jī)架式 MGX 系統(tǒng)設(shè)計(jì)),數(shù)據(jù)中心中有 100000 臺(tái)服務(wù)器,因此有 400000 個(gè) GPU。(如果您使用 HGX 設(shè)計(jì),它不會(huì)完全連接機(jī)架內(nèi)的 GPU 內(nèi)存,而只會(huì)連接服務(wù)器節(jié)點(diǎn)內(nèi)的 GPU 內(nèi)存,那么每四個(gè) GPU 就會(huì)有一個(gè) CPU,只需要 50,000 臺(tái)服務(wù)器即可容納 400,000 個(gè) GPU,但它占用的空間只有一半,光收發(fā)器也略少。但它占用的空間是原來的兩倍。)

換而言之,無論如何,Nvidia 選擇的方案將有 240 萬個(gè)光收發(fā)器,這些可插拔模塊插入每個(gè)服務(wù)器端口和每個(gè)交換機(jī)端口,將電信號(hào)轉(zhuǎn)換為可通過光纖管道傳輸?shù)墓庑盘?hào)。這 240 萬個(gè)收發(fā)器使用 40 兆瓦的功率,而這些可插拔模塊上的激光器占其中的 24 兆瓦。

在“傳統(tǒng)”超大規(guī)模和云數(shù)據(jù)中心中,收發(fā)器采用 Clos topology,而不是像 AI 或 HPC 超級(jí)計(jì)算機(jī)那樣采用full fat tree topology,因此在收發(fā)器上消耗的功率約為 2.3 兆瓦,如果將數(shù)字倒推,則略低于 140000 個(gè)此類可插拔模塊。收發(fā)器數(shù)量如此之少的原因很簡單:一臺(tái)擁有一兩個(gè) CPU 的服務(wù)器執(zhí)行 Web 基礎(chǔ)設(shè)施甚至搜索引擎抓取任務(wù)時(shí)只有一個(gè)端口,而 GPU 服務(wù)器則需要為每個(gè) GPU 配備至少一個(gè)端口。AI 超級(jí)計(jì)算機(jī)中計(jì)算引擎的數(shù)量推動(dòng)了光收發(fā)器的使用。

現(xiàn)在,業(yè)界提供了一個(gè)擺脫它們的完美借口,Nvidia 正在其下一代 Quantum-X InfiniBand 和 Spectrum-X 交換機(jī)上實(shí)現(xiàn)這一目標(biāo),并且可能最終會(huì)在其 Connect-X SmartNIC 和 BlueField DPU 上實(shí)現(xiàn)這一目標(biāo),正如我們上面指出的那樣,GPU 和 CPU 上的 NVLink 端口以及 NVSwitch 內(nèi)存原子交換機(jī)(memory atomic switches)上。

如上圖所示,Nvidia 采用了兩種不同的共封裝光學(xué)器件方法,這些方法由 Nvidia 和圖表底部的眾多合作伙伴共同開發(fā)。硅光子引擎由 Nvidia 自己創(chuàng)建(Mellanox 在制造可插拔光學(xué)器件方面擁有豐富的專業(yè)知識(shí)),并且為這些交換機(jī) ASIC 創(chuàng)建了一種新的微環(huán)調(diào)制器 (MRM) 設(shè)計(jì),以集成其光學(xué)器件。

在 800 Gb/秒端口中轉(zhuǎn)向 200 Gb/秒信號(hào)通道可能是迫在眉睫的挑戰(zhàn)。僅僅將信號(hào)從交換機(jī) ASIC 傳輸?shù)矫姘迳系亩丝诰托枰罅康男盘?hào)重定時(shí)器(每個(gè)端口可能多達(dá)兩個(gè)),而且正如 Astera Labs 的財(cái)務(wù)報(bào)表所示,成本“肯定會(huì)增加”。

Nvidia 還與晶圓廠合作伙伴臺(tái)灣半導(dǎo)體制造公司合作,優(yōu)化其自己的光子引擎設(shè)計(jì),并包括高功率(和高效率)激光器和可拆卸光纖連接器。

正如您在上圖左側(cè)看到的,未來帶有 CPO 的 Quantum-X InfiniBand ASIC 擁有一個(gè)單片交換機(jī) ASIC 芯片,該芯片帶有六個(gè)不同的 CPO 模塊,每個(gè)模塊都有三個(gè)連接器,總共看起來像 18 個(gè)端口,運(yùn)行速度為 800 Gb/秒,但實(shí)際上是 36 個(gè)端口(每個(gè)插頭似乎有兩個(gè)端口)。

顯然,這款 InfiniBand 小型 CPO 模塊旨在降低成本,并實(shí)現(xiàn)高產(chǎn)量制造。這只是第一步,它不會(huì)導(dǎo)致高基數(shù)的交換機(jī),因此需要大量的交換機(jī)通過服務(wù)器上的 NIC 連接一定數(shù)量的 GPU 端口。

Spectrum-X 帶 CPO 具有多芯片設(shè)計(jì),用于以太網(wǎng)交換機(jī) ASIC,具有一個(gè)單片數(shù)據(jù)包處理引擎,由八個(gè) SerDes 芯片組(每側(cè)兩個(gè))包裹,然后在角落處有四個(gè)未知芯片組,我們不知道它們?cè)谧鍪裁?。Spectrum-X CPO 芯片的每一側(cè)都有九個(gè)端口,總共 36 個(gè)端口,運(yùn)行速度為 800 GB/秒。

在這兩種設(shè)計(jì)中,SerDes 的運(yùn)行速度均為每通道 224 Gb/秒,每個(gè)端口由四條通道組成,編碼開銷總共損失 96 Gb/秒,因此每個(gè)端口的凈速度為 800 Gb/秒。Quantum-X ASIC 上的 SerDes 總共有 72 條通道,Spectrum-X chiplet 系列上的 SerDes 有 144 條通道。

由于所有超大規(guī)模企業(yè)和云構(gòu)建者都希望將以太網(wǎng)用作其 AI 集群的后端網(wǎng)絡(luò),并且大多數(shù)其他新云和許多 HPC 超級(jí)計(jì)算中心預(yù)計(jì)也會(huì)效仿,因此 Shainer 重點(diǎn)關(guān)注了 Spectrum-X 帶來的好處。

首先,我們來看看 Nvidia 是如何進(jìn)行 CPO 封裝的,以及效果如何。然后我們?cè)賮砜纯唇粨Q機(jī)本身。

以下是其示意圖,以及使用集成光學(xué)器件和在交換機(jī)中使用集成激光源可以節(jié)省多少電量,有趣的是,計(jì)算結(jié)果顯示的是 1.6 Tb/秒端口,這是數(shù)據(jù)中心的未來,而不是現(xiàn)在:

如上圖所示,光收發(fā)器上的數(shù)字信號(hào)處理器耗電 20 瓦,為收發(fā)器提供光源的外部調(diào)制激光器耗電 10 瓦。因此,240 萬個(gè)收發(fā)器共有 30 瓦,用于交叉連接 100,000 臺(tái)服務(wù)器和 400,000 個(gè) GPU。當(dāng)我們進(jìn)行計(jì)算時(shí),我們得到的是 72 兆瓦,而不是 40 兆瓦(這可能是 800 Gb/秒的端口號(hào))。

使用 CPO,交換機(jī)盒中有一個(gè)連續(xù)波激光源,每個(gè)端口消耗 2 瓦功率,光學(xué)引擎集成了 Spectrum 交換機(jī) ASIC 使用的相同基板,消耗 7 瓦功率。因此,現(xiàn)在每個(gè)端口的功率降低到 9 瓦,跨越 240 萬個(gè)鏈路,功率降低到 21.6 兆瓦。根據(jù)我們的計(jì)算,鏈路功率減少了 3.3 倍。

使用 CPO 不僅可以降低功率,而且由于信號(hào)組件之間的轉(zhuǎn)換更少,因此整體端到端配置中的噪聲也更少。請(qǐng)看一看:

每次從一個(gè)組件跳轉(zhuǎn)到另一個(gè)組件時(shí),都會(huì)產(chǎn)生信號(hào)噪聲,而當(dāng)可插拔光學(xué)器件連接到交換機(jī)時(shí),收發(fā)器和交換機(jī)打印機(jī)電路板、基板和端口籠之間會(huì)有五次轉(zhuǎn)換,總共會(huì)產(chǎn)生 22 分貝的信號(hào)損失。使用 CPO,基板中有一個(gè)轉(zhuǎn)換,用于將交換機(jī) ASIC 連接到硅光子模塊,信號(hào)損失僅為 4 分貝。這意味著信號(hào)噪聲降低了 5.5 倍。

所有這些的效果如下:

上圖顯示,在相同的光學(xué)功率范圍內(nèi),GPU 數(shù)量可以增加 3 倍,但正如我們上面所看到的(您也可以從圖表中親眼看出),實(shí)際數(shù)量是 3.3 倍。值得注意的是,連接任意數(shù)量的 GPU 所需的激光器數(shù)量也將減少 4 倍以上。當(dāng)然,訣竅是將激光源置于 Quantum-X 和 Spectrum-X 交換機(jī)內(nèi)部,以便在發(fā)生故障時(shí)輕松在現(xiàn)場更換,或者足夠可靠,不用擔(dān)心發(fā)生故障。因此,帶有 CPO 的 Quantum-X 和 Spectrum-X 交換機(jī)將采用液體冷卻,這樣可以讓它們?cè)诟涞臏囟认逻\(yùn)行,并且不會(huì)讓激光器變得異常。

目前,Nvidia 計(jì)劃推出三種不同的交換機(jī),推出共同封裝的光學(xué)產(chǎn)品。

第一款是 Quantum 3450-LD,其機(jī)箱內(nèi)有四個(gè) Quantum-X CPO 插槽,以無阻塞方式完全連接,以 800 Gb/秒的速度提供 144 個(gè)端口,這些端口的總有效帶寬為 115 Tb/秒。(我們想知道為什么不是六個(gè),您需要將四個(gè) ASIC 呈現(xiàn)給面板,其中兩個(gè)用于將四個(gè) ASIC 聯(lián)網(wǎng)在一起。)這款 Quantum-X 交換機(jī)將于 2025 年下半年上市。

以下是配有全電纜接口的 Quantum-X 交換機(jī):

兩款采用 CPO 的 Spectrum-X 交換機(jī)將需要更長時(shí)間才能投入使用,預(yù)計(jì)要到 2026 年下半年。

Nvidia 的第一款配備 CPO 的以太網(wǎng)交換機(jī)是 Spectrum SN6810,它將配備單個(gè) Spectrum-X CPO 設(shè)備,并為 128 個(gè)以 800 Gb/秒運(yùn)行的端口提供 102.4 Tb/秒的總帶寬。(封裝上顯然有一些額外的 CPO 單元,以提高封裝良率。)Spectrum SN6800 交換機(jī)非常出色,擁有 512 個(gè)以 800 Gb/秒運(yùn)行的端口,機(jī)箱內(nèi)的四個(gè) ASIC 總共提供 409.6 Tb/秒的有效總帶寬。不過,我們想知道為什么機(jī)箱中沒有六個(gè) Spectrum-X CPO ASIC,而是四個(gè),以便以無阻塞方式交叉連接它們。

寫在最后

雖然黃仁勛在會(huì)上激情慢慢,公司新發(fā)布的產(chǎn)品也同樣引起了廣泛討論。而且,據(jù)彭博社報(bào)道,OpenAI 斥資 1000 億美元建設(shè)的星際之門基礎(chǔ)設(shè)施項(xiàng)目的首個(gè)數(shù)據(jù)中心綜合體將擁有容納多達(dá) 40 萬個(gè) Nvidia 公司強(qiáng)大的 AI 芯片的空間——如果能夠裝滿,它將成為已知最大的人工智能計(jì)算能力集群之一。

Meta也表示,它計(jì)劃在 2024 年底之前擁有相當(dāng)于 600,000 臺(tái) Nvidia H100(該公司數(shù)據(jù)中心半導(dǎo)體的上一代產(chǎn)品)的計(jì)算能力。專注于 AI 的云提供商 CoreWeave Inc. 在本月初的公開募股文件中表示,該公司在 32 個(gè)數(shù)據(jù)中心擁有超過 250,000 個(gè) Nvidia 圖形處理單元。

但是,無論是谷歌聯(lián)手MTK打造芯片,還是Meta測(cè)試最新訓(xùn)練芯片,或者是最新的亞馬遜AI芯片服務(wù)降價(jià)與和英偉達(dá)競爭,都在給這家芯片巨頭帶來新的挑戰(zhàn)。

而且,投資者似乎對(duì)這一主題演講并不太感興趣。

在主題演講之前,Nvidia的股價(jià)約為每股 118 美元,盤中下跌約 1.5%。在美國東部時(shí)間下午 3:15 左右收盤后,股價(jià)繼續(xù)下跌。截至周二午后交易,該股下跌逾 3.4%。

這讓我們不得不發(fā)出疑問,GPU巨頭,還能火多久?

附:黃仁勛演講Keynote重點(diǎn)

在演講中,黃仁勛表示,“GTC 從 GeForce 起步”

Jensen 手里有一臺(tái) GeForce RTX 5090,為了進(jìn)行比較,還有一臺(tái) RTX 4090。

Jensen 正在展示路徑追蹤環(huán)境——其中配備了強(qiáng)大的 AI 來提供升級(jí)、去噪等功能。

“生成式人工智能從根本上改變了計(jì)算方式”

AI 現(xiàn)在有了代理——Jensen 稱之為“Agentic”AI。模型可以從網(wǎng)站檢索內(nèi)容,既可以作為訓(xùn)練,也可以作為更直接的信息檢索。

Jensen表示,他們今天還將詳細(xì)討論推理人工智能。

以及“physical AI”,使用AI來幫助模擬和訓(xùn)練其他AI模型。

“讓 GTC 做大的唯一方法就是發(fā)展圣何塞。我們正在努力!”

每年都有更多的人加入,因?yàn)槿斯ぶ悄苣軌驗(yàn)楦嗟娜撕凸窘鉀Q更多的問題。

三個(gè)基本縮放定律:

訓(xùn)練前擴(kuò)展、訓(xùn)練后擴(kuò)展和測(cè)試時(shí)擴(kuò)展。如何創(chuàng)建、如何訓(xùn)練以及如何擴(kuò)展?

擴(kuò)展:去年幾乎全世界都犯了錯(cuò)誤。推理所需的計(jì)算量很容易就比去年全世界認(rèn)為的要多 100 倍。

我們現(xiàn)在有了能夠通過思維鏈和其他技術(shù)逐步推理的人工智能。但生成令牌的底層過程并沒有改變。相反,這種推理需要更多的令牌——高得多,“很容易多 100 倍”。

為了保持模型的響應(yīng),每秒所需的計(jì)算量同樣很高。

強(qiáng)化學(xué)習(xí)是過去幾年的重大突破。為人工智能提供數(shù)百萬個(gè)不同的示例,讓其逐步解決問題,并在人工智能做得更好時(shí)獎(jiǎng)勵(lì)(強(qiáng)化)。這相當(dāng)于數(shù)以萬億的Token來訓(xùn)練該模型。換句話說:生成合成數(shù)據(jù)來訓(xùn)練人工智能。

Jensen表示,硬件銷售行業(yè)已經(jīng)接受了這一舉措。

Hopper 的出貨量在云服務(wù)提供商中名列前茅。Hopper 的巔峰之年與 Blackwell 的第一年相比。

僅一年時(shí)間(Blackwell 剛剛開始出貨),NVIDIA 就報(bào)告其企業(yè)級(jí) GPU 銷量顯著增長。

Jensen預(yù)計(jì)數(shù)據(jù)中心的建設(shè)投資很快就會(huì)達(dá)到一萬億美元。

Jensen 認(rèn)為,我們正看到數(shù)據(jù)中心建設(shè)向加速計(jì)算(即 GPU 和其他加速器而不僅僅是 CPU)發(fā)展的轉(zhuǎn)折點(diǎn)。

“計(jì)算機(jī)已經(jīng)成為Token的生成器,而不是文件的檢索器?!边@就是 NVIDIA 所說的 AI 工廠。

雖然數(shù)據(jù)中心中的一切都將加速,但并非所有一切都將是人工智能。

您還需要物理、生物和其他科學(xué)領(lǐng)域的框架。NVIDIA 已將所有這些作為其 CUDA-X 庫的一部分提供。cuLitho 用于計(jì)算光刻,cuPynumeric 用于數(shù)值計(jì)算,Aerial 用于信號(hào)處理等。這是 NVIDIA 在更大行業(yè)中的“護(hù)城河”。

“我們將于周四在 GTC 舉辦第一屆量子日?!?/p>

“CUDA 的安裝基礎(chǔ)現(xiàn)在無處不在”通過使用這些庫,開發(fā)人員的軟件可以覆蓋每個(gè)人。

Blackwell 比第一代 CUDA GPU 快 50,000 倍以上。

Jensen在隨后的演講中指出,我熱愛我們所做的事情。我更熱愛你們所做的事情。

CSP 喜歡 CUDA 開發(fā)人員是 CSP 客戶。

但現(xiàn)在他們要把人工智能帶到世界其他地方,情況正在發(fā)生一些變化。GPU 云、邊緣計(jì)算等都有自己的要求。

在 NV 的眾多小型公告中,幾家公司(思科、T-Mobile 等)正在利用 NVIDIA 的技術(shù)(Ariel-Sionna 等)為美國無線電網(wǎng)絡(luò)構(gòu)建全棧。

但這只是其中一個(gè)行業(yè)。自動(dòng)駕駛汽車也是如此。AlexNet 說服 NVIDIA 全力投入自動(dòng)駕駛汽車技術(shù)?,F(xiàn)在他們的技術(shù)正在世界各地使用。NVIDIA 制造用于訓(xùn)練、模擬和自動(dòng)駕駛汽車的計(jì)算機(jī)。

NVIDIA 宣布通用汽車將與 NVIDIA 合作打造其未來的自動(dòng)駕駛汽車車隊(duì)。

“自動(dòng)駕駛汽車的時(shí)代已經(jīng)到來”

NVIDIA 已讓第三方對(duì)所有 700 萬行代碼的安全性進(jìn)行了評(píng)估。安全性似乎是 NVIDIA 今年汽車業(yè)務(wù)的關(guān)鍵詞。

數(shù)字孿生、強(qiáng)化學(xué)習(xí)、生成多樣化場景等。全部圍繞 NVIDIA Cosmos 構(gòu)建。使用 AI 創(chuàng)造更多 AI。

現(xiàn)在討論數(shù)據(jù)中心。

Grace Blackwell 現(xiàn)已全面投入生產(chǎn)。Jensen 正在展示其合作伙伴提供的各種機(jī)架系統(tǒng)。

NVIDIA 花了很長時(shí)間研究分布式計(jì)算——如何縱向擴(kuò)展,然后如何橫向擴(kuò)展。橫向擴(kuò)展很難;因此 NVIDIA 必須首先使用 HGX 和 8 路 GPU 配置進(jìn)行縱向擴(kuò)展。

Jensen 正在展示 NVL8 系統(tǒng)的構(gòu)建。重點(diǎn)強(qiáng)調(diào)了過去。

為了克服這一問題,NVIDIA 必須重新設(shè)計(jì) NVLink 系統(tǒng)的工作方式,以進(jìn)一步擴(kuò)大規(guī)模。NVIDIA 將 NVLink 交換移出機(jī)箱,并將其移至機(jī)架單元設(shè)備?!胺纸馐?NVLInk”

現(xiàn)在 NVIDIA 可以在一個(gè)機(jī)架中提供一個(gè) ExaFLOP(低精度)。

Blackwell GPU 已經(jīng)突破了標(biāo)線極限,因此 NVIDIA 通過采用現(xiàn)在的機(jī)架級(jí)系統(tǒng)而不是單個(gè)服務(wù)器來擴(kuò)大規(guī)模。

反過來,所有這些都有助于為人工智能提供計(jì)算性能。不僅用于訓(xùn)練,還用于推理。

Jensen 展示了大規(guī)模計(jì)算的推理性能曲線。簡而言之,它是總吞吐量和響應(yīng)能力之間的平衡。保持系統(tǒng)飽和將最大化令牌吞吐量,但生成單個(gè)令牌需要很長時(shí)間。時(shí)間太長,用戶就會(huì)轉(zhuǎn)向其他地方。

這是典型的延遲與吞吐量的權(quán)衡。

因此,對(duì)于 NVIDIA 的 CSP 合作伙伴和其他使用 NV 硬件進(jìn)行推理的客戶來說,為了最大化他們的收入,他們需要仔細(xì)選擇曲線上的一個(gè)點(diǎn)。通常,理想的點(diǎn)是向上和向右 - 吞吐量和響應(yīng)能力最高,而不會(huì)顯著損害一個(gè)以換取另一個(gè)的微小改進(jìn)。

所有這些都需要 FLOPS、內(nèi)存帶寬等。因此 NVIDIA 構(gòu)建了硬件來提供這些功能。

傳統(tǒng)的 LLM 速度快、效率高,但在 NVIDIA 的婚禮座位用例中卻不盡如人意。浪費(fèi)了 439 個(gè) token。推理模型可以處理它,但需要超過 8,000 個(gè) token。

要使所有這些性能優(yōu)異,不僅需要大量硬件,還需要大量優(yōu)化的軟件,直至操作系統(tǒng),以處理批處理等基本優(yōu)化。

預(yù)填充(消化信息)非常耗費(fèi) FLOPS。下一步,解碼,需要耗費(fèi)大量內(nèi)存帶寬,因?yàn)槟P托枰獜膬?nèi)存中提取;輸入數(shù)萬億個(gè)參數(shù)。所有這些都是為了產(chǎn)生 1 個(gè) token。

這就是你需要 NVLink 的根本原因。將多個(gè) GPU 整合成一個(gè)巨大的 GPU。

然后這可以進(jìn)行進(jìn)一步的優(yōu)化。將使用多少個(gè) GPU 來進(jìn)行預(yù)填充和解碼?

公告:NVIDIA Dynamo,分布式推理服務(wù)庫。AI Factory 的操作系統(tǒng)。

Jensen 在范圍方面將 Dynamo 與 VMWare 進(jìn)行了比較。VMWare 是建立在 CPU 系統(tǒng)上的,而 Dynamo 是建立在 GPU 系統(tǒng)上的。

Dynamo 是開源的。

現(xiàn)在回到硬件和性能。Jensen 正在將 NVL8 Hopper 設(shè)置與 Blackwell 進(jìn)行比較。每兆瓦每秒token數(shù)與每用戶每秒token數(shù)的對(duì)比圖。

“只有在 NVIDIA 你才會(huì)被數(shù)學(xué)折磨”

對(duì)于服務(wù)提供商來說,長時(shí)間內(nèi)擁有大量token就意味著大量收入。請(qǐng)記住吞吐量與響應(yīng)度之間的權(quán)衡。這是 NVIDIA 試圖改變的曲線。

Blackwell 改進(jìn)了這一點(diǎn),提供了更好的硬件和對(duì)低精度數(shù)據(jù)格式 (FP4) 的支持。使用更少的能量做與以前相同的事情,從而做更多的事情。

“未來每個(gè)數(shù)據(jù)中心的電力都將受到限制。”“我們現(xiàn)在是一個(gè)電力受限的行業(yè)”。

Dynamo 讓 Blackwell NVL72 運(yùn)行速度更快。這是在等功率下,而不是等芯片下。一代速度提升了 25 倍。

現(xiàn)在討論一下帕累托前沿和帕累托最優(yōu),以及各種模型配置如何達(dá)到曲線上的不同點(diǎn)。

在其他情況下,Blackwell 的性能(等功率)可達(dá)到 Hopper 的 40 倍。

“我是主要的收入破壞者。”“有些情況下,Hopper是沒問題的?!?/p>

事實(shí)就是如此:“買得越多,省得越多?!薄百I得越多,賺得越多。”

NVIDIA 還討論如何為數(shù)據(jù)中心構(gòu)建數(shù)字孿生。(畢竟,在 NV 的世界里,它只是另一家工廠)

最終,使用數(shù)字孿生可以提前規(guī)劃和優(yōu)化所有這些,然后最終構(gòu)建一次并快速構(gòu)建。

Blackwell Ultra NVL72 將于今年下半年出貨。1.1 Exaflops 密集 FP4 推理。2 倍網(wǎng)絡(luò)帶寬。20TB HBM 系統(tǒng)內(nèi)存。還有一條新的注意指令,性能應(yīng)該會(huì)翻倍。

行業(yè)現(xiàn)在正處于必須規(guī)劃支出的階段。各公司正在對(duì)硬件、設(shè)施和 NVIDIA 生態(tài)系統(tǒng)做出多年承諾。這就是 Jensen 希望明確 NVIDIA 路線圖的原因。

繼布萊克威爾之后的是發(fā)現(xiàn)暗物質(zhì)的Vera Rubin。

Vera Rubin NVL144,2026 年下半年。Vera Arm CPU + Rubin GPU。

未來,NVIDIA 在談?wù)?NVLink 域時(shí)將計(jì)算 GPU 裸片,而不是單個(gè) GPU 芯片。因此 NVL144 是 144 個(gè)裸片,而不是 144 個(gè)芯片。

然后是 2027 年下半年的 Rubin Ultra NVL576。每機(jī)架 600KW。15 ExaFLOP。每個(gè) GPU 封裝 1TB HBM4e 內(nèi)存。

Rubin將大幅降低人工智能計(jì)算的成本。

以上就是關(guān)于縱向擴(kuò)展的討論。現(xiàn)在是時(shí)候討論橫向擴(kuò)展和 NVIDIA 的網(wǎng)絡(luò)產(chǎn)品了。

Jensen 正在重述 NVIDIA 收購 Mellanox 并進(jìn)軍網(wǎng)絡(luò)市場的決定。

CX-8 和 CX-9 即將問世。NVIDIA 希望在 Rubin 時(shí)代能夠?qū)?GPU 規(guī)模擴(kuò)展到數(shù)十萬個(gè)。

橫向擴(kuò)展意味著數(shù)據(jù)中心將達(dá)到體育場的大小。銅線連接無法滿足需求。光纖是必需的。而光纖可能非常耗能。因此,NVIDIA 計(jì)劃利用共封裝硅光子技術(shù)提高光纖網(wǎng)絡(luò)的效率。

基于一種稱為微環(huán)調(diào)制器 (MRM:Micro Ring Modulators) 的技術(shù)。臺(tái)積電采用他們一直在晶圓廠開發(fā)的全新 3D 堆疊工藝制造。

Jensen 正在談?wù)摦?dāng)前光纖網(wǎng)絡(luò)的工作原理,即兩側(cè)每個(gè)端口都有單獨(dú)的收發(fā)器。這種方式可靠且有效,但從電到光的轉(zhuǎn)換(以及從電到光的轉(zhuǎn)換)會(huì)消耗較少的電量。

“每個(gè) GPU 都有 6 個(gè)收發(fā)器”。這將耗費(fèi) 180 瓦(每個(gè) 30 瓦)的功率和數(shù)千美元的收發(fā)器費(fèi)用。

收發(fā)器消耗的所有電力都無法用于 GPU。這使得 NVIDIA 無法向客戶銷售更多 GPU。

采用TSMC的COUPE封裝

NVIDIA 將于 2025 年晚些時(shí)候推出硅光子 Quantum-X(InfiniBand)交換機(jī),然后在 2026 年下半年推出 Specturm-X(以太網(wǎng))交換機(jī)。

無需收發(fā)器 – 直接光纖輸入。Spectrum-X 交換機(jī)上最多有 512 個(gè)端口。

節(jié)省 6 MW 意味著數(shù)據(jù)中心可以添加 10 個(gè) Rubin Ultra 機(jī)架。

Rubin之后的下一代 GPU 是誰?傳奇人物理查德·費(fèi)曼 (Richard Feynman)。

現(xiàn)在轉(zhuǎn)向系統(tǒng)。

到今年年底,100% 的 NVIDIA 軟件工程師將由人工智能輔助。我們需要一條新的計(jì)算機(jī)生產(chǎn)線。

宣布推出 DGX Spark。這是 NVIDIA 之前宣布的 Project DIGITS 迷你 PC 的最終名稱。

DGX Spark 和 DGX 站。

GPU 加速存儲(chǔ)。NVIDIA 一直與所有主要存儲(chǔ)供應(yīng)商合作。

戴爾將提供全系列基于 NVIDIA 的系統(tǒng)。

NVIDIA 還宣布推出新的開源模型:NVIDIA Nemo Llame Nemotron Reasoning。

接下來,談?wù)剻C(jī)器人技術(shù)。

“世界嚴(yán)重缺乏人力工人”

反過來,這些機(jī)器人將通過物理世界的人工智能模擬進(jìn)行訓(xùn)練。

隆重推出 NVIDIA Isaac GROOT N1。

“物理人工智能和機(jī)器人技術(shù)發(fā)展如此之快。每個(gè)人都關(guān)注這個(gè)領(lǐng)域。這很可能是最大的行業(yè)。”

Jensen 正在重述 Omniverse + Cosmos 模擬的工作原理。使用 Cosmos 創(chuàng)建各種環(huán)境來幫助訓(xùn)練。

機(jī)器人技術(shù)中可驗(yàn)證的獎(jiǎng)勵(lì)是什么?物理學(xué)。如果機(jī)器人的行為符合物理規(guī)律,那么就可以驗(yàn)證其準(zhǔn)確性。

Blackwell 正在加速發(fā)展,但 NVIDIA 已經(jīng)將目光鎖定在 2025 年底推出的 Blackwell Ultra、2026 年推出的 Vera Rubin、2027 年推出的 Rubin Ultra 和 2028 年推出的 Feynman。

參考鏈接

https://arstechnica.com/ai/2025/03/nvidia-announces-rubin-ultra-and-feynman-ai-chips-for-2027-and-2028/

https://www.cnbc.com/2025/03/18/nvidia-announces-blackwell-ultra-and-vera-rubin-ai-chips-.html

https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after

https://www.theverge.com/news/631835/nvidia-blackwell-ultra-ai-chip-gb300

https://www.nextplatform.com/2025/03/18/nvidia-weaves-silicon-photonics-into-infiniband-and-ethernet/

https://www.servethehome.com/nvidia-gtc-2025-keynote-live-coverage/

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。


反饋
聯(lián)系我們
推薦訂閱