英偉達(dá)最新AI芯片H200只能算半代升級，發(fā)布更多是無奈之舉

騰訊科技·2023-11-15

關(guān)注

ee

北京移動互聯(lián)網(wǎng)

面向女生的新一代場景社交

最近融資：|2016-01-06

我要聯(lián)系

最強(qiáng)GPU芯片再次升級了，但更像是半代升級。

編者按：本文來自微信公眾號騰訊科技（ID：qqtech），作者：郝博陽無忌，創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。

最強(qiáng)GPU芯片再次升級了，但更像是半代升級。

在11月13日的2023年全球超算大會（SC23）上，英偉達(dá)發(fā)布了新一代AI芯片HGX H200，用于AI大模型的訓(xùn)練，相比于其前一代產(chǎn)品H100，H200的性能提升了約60%到90%。

H200是英偉達(dá)H100的升級版。與過往GPU升級主要都在架構(gòu)提升上不同，H200與H100都基于Hopper架構(gòu)。

在同架構(gòu)之下，H200的浮點(diǎn)運(yùn)算速率基本上和H100相同。而其主要升級點(diǎn)轉(zhuǎn)向了內(nèi)存容量和帶寬。具體包括141GB的HBM3e內(nèi)存，比上一代提升80%，顯存帶寬從H100的3.35TB/s增加到了4.8TB/s，提升40%。

H200核心GPU運(yùn)算數(shù)據(jù)與H100完全一致

然而，在大模型推理表現(xiàn)上，其提升卻極其明顯。H200在700億參數(shù)的Llama2大模型上的推理速度比H100快了一倍，而且在推理能耗上H200相比H100直接降低了一半。

對于顯存密集型HPC（高性能計算）應(yīng)用，H200更高的顯存帶寬能夠確保高效地訪問數(shù)據(jù)，與CPU相比，獲得結(jié)果的時間最多可提升110倍。

因為框架未有改變，H200與H100有著完全的兼容性。這意味著已經(jīng)使用先前模型進(jìn)行訓(xùn)練的AI公司將無須更改其服務(wù)器系統(tǒng)或軟件即可使用新版本。

為什么英偉達(dá)突然不卷頻率，卷起內(nèi)存了呢？

01H200這個半代升級，是不得不發(fā)的無奈之舉

芯片內(nèi)存，靠著AI才走向了前臺。

幾十年來，出于技術(shù)和經(jīng)濟(jì)原因，各種處理器在計算上配置過度，但在內(nèi)存帶寬上配置不足。因為內(nèi)存容量取決于設(shè)備和工作負(fù)載。比如處理Web基礎(chǔ)設(shè)施工作、或一些相對簡單的分析和數(shù)據(jù)庫工作，一個擁有十幾個DDR內(nèi)存通道的CPU就足夠處理了。

但對于HPC模擬和建模、人工智能訓(xùn)練和推理來說，這點(diǎn)內(nèi)存通道就不夠用了。為了實際提高矢量和矩陣引擎的利用率，內(nèi)存容量和內(nèi)存帶寬突然成了高性能GPU的命門。

早在今年年初，全球大廠掃貨GPU備戰(zhàn)百模大戰(zhàn)時，H100的產(chǎn)能卻出現(xiàn)了瓶頸。最主要的卡點(diǎn)都圍繞在內(nèi)存上。

H100所采用的HBM內(nèi)存擁有DDR內(nèi)存難以比擬的帶寬，但其產(chǎn)量因為其堆疊生產(chǎn)工藝的復(fù)雜一直較低，除此之外為了在芯片中使用HBM，英偉達(dá)還必須采用臺積電獨(dú)創(chuàng)的CoWoS封裝系統(tǒng)。HBM和CoWoS封裝兩個漏斗，直接濾掉了H100的產(chǎn)能。

因為GPU AI運(yùn)算性能與內(nèi)存的強(qiáng)關(guān)聯(lián)性，HBM內(nèi)存也成了各個大廠的兵家必爭之地。

英特爾在今年年初推出了全球首款配備HBM內(nèi)存的處理器--Intel Xeon Max系列處理器，其基于代號Sapphire Rapids-HBM芯片構(gòu)建。所有的Xeon Max都內(nèi)置了64 GB的HBM2e高帶寬內(nèi)存，分為4個16 GB的集群，總內(nèi)存帶寬為1 TB/秒。

英特爾稱，Xeon Max系列CPU配備的高帶寬內(nèi)存足以滿足最常見的HPC工作負(fù)載，與舊的英特爾至強(qiáng) 8380系列處理器或AMD EPYC 7773X相比，可在某些工作負(fù)載中提供接近五倍的性能。即使Xeon Max在主頻和架構(gòu)上都落后于H100，但就靠著內(nèi)存水位相當(dāng)，依然在媒體和業(yè)界備受重視，成了在AMD之外H100最有力的競爭者。

那如果競爭對手的主頻和架構(gòu)跟上來，內(nèi)存還更勝一籌會怎樣？

在AMD下月6日舉辦的發(fā)布活動中，該公司將會發(fā)布Instinct MI300A和Instinct MI300X。

Instinct MI300A為AMD首個集成24個Zen 4 CPU核心、CNDA 3架構(gòu)GPU核心以及128GB HBM3的APU，其被認(rèn)為在性能上有望與英偉達(dá)的Grace Hopper相媲美。

如鯁在喉AMD

Instinct MI300X集成了12個5納米的小芯片，提供了192GB的HBM3、5.2TB/秒的帶寬，晶體管數(shù)量高達(dá)1530億。MI300X提供的HBM密度是英偉達(dá)H100的2.4倍，HBM帶寬是H100的1.6倍，意味著在MI300X上可以訓(xùn)練比H100更大的模型，單張加速卡可運(yùn)行一個400億參數(shù)的模型。

這將是一個顛覆AI芯片乃至GPU市場的敵手，而英偉達(dá)更換了架構(gòu)的下一代GPU芯片B100要最早明年Q2才能發(fā)布。6個月的時間，一個更強(qiáng)的AMD顯卡完全可能把英偉達(dá)在這半年間積累的AI霸權(quán)碾的蕩然無存。架構(gòu)升級沒有，主頻因此提升不上來，為了保證不被超越，英偉達(dá)怎么辦？只能把內(nèi)存升級到和MI300X同水準(zhǔn)，靠半代升級截胡AMD。

B100，沖破天際

所以，英偉達(dá)這波升級，更多的是個無奈之舉。

02新內(nèi)存強(qiáng)在哪里

作為首款搭載HBM3e內(nèi)存的GPU，我們總算能從它的數(shù)據(jù)中一窺內(nèi)存對AI運(yùn)算的巨大影響了。

HBM3e滿足了用于AI的存儲器必備的速度規(guī)格，也在發(fā)熱控制和客戶使用便利性等所有方面都達(dá)到了全球最高水平。

在它的加持之下，H200的內(nèi)存帶寬從3.35TB/秒提升至4.8TB/秒，提升43%；與H100相比，H200容量幾乎翻倍，能以每秒4.8TB的速度提供141GB內(nèi)存。在HBM3e加持下，H200讓Llama-70B推理性能幾乎翻倍，運(yùn)行GPT3-175B也能提高60%。

英偉達(dá)大規(guī)模與高性能計算副總裁伊恩·巴克（Ian Buck）在演示視頻中表示，“HBM內(nèi)存的整合有助于加速計算密集任務(wù)的性能，包括生成式人工智能模型和高性能計算應(yīng)用，同時優(yōu)化GPU的利用率和效率。借助H200，業(yè)界突出的端到端人工智能超算平臺的速度會變得更快，一些世界上最重要的挑戰(zhàn)，都可以被解決。”

在技術(shù)文檔中，英偉達(dá)是如此解釋AI計算和內(nèi)存的關(guān)聯(lián)的：內(nèi)存帶寬對于HPC應(yīng)用程序至關(guān)重要，因為它可以實現(xiàn)更快的數(shù)據(jù)傳輸，減少復(fù)雜的處理瓶頸。對于模擬、科學(xué)研究和人工智能等內(nèi)存密集型HPC應(yīng)用，H200更高的內(nèi)存帶寬可確保高效地訪問和操作數(shù)據(jù)，與CPU相比，獲得結(jié)果的時間最多可加快110倍。

內(nèi)存的力量！

HBM被如此倚為長城，內(nèi)存廠商也在這次AI大基建中獲得了僅次于GPU廠商的收益。

HBM和DDR5的價格和需求在今年都大幅增長。而HBM的價格是現(xiàn)有DRAM產(chǎn)品的5-6倍；DDR5的價格也比DDR4高出15%到20%。

據(jù)BusinessKorea援引業(yè)內(nèi)人士消息透露，SK海力士預(yù)計，2024年HBM和DDR5的銷售額有望翻番。市場調(diào)研機(jī)構(gòu)TrendForce指出，高端AI服務(wù)器需采用的AI芯片，將推升2023-2024年高帶寬存儲器（HBM）的需求。市場規(guī)模上，該機(jī)構(gòu)預(yù)計2023年全球HBM需求量將增近六成，達(dá)到2.9億GB，2024年將再增長30%，2025年HBM整體市場有望達(dá)到20億美元以上。

03潛在的壟斷消失，但定價不一定手軟

英偉達(dá)表示，H200計劃于2024年第二季度正式出貨。屆時，包括亞馬遜，谷歌，微軟等大型計算機(jī)廠商和云服務(wù)提供商將成為H200的首批用戶，客源依然穩(wěn)健。

考慮到目前高性能GPU服務(wù)器仍然緊缺，云服務(wù)商現(xiàn)在是更多是出啥買啥。

但在競爭對手，如AMD和英特爾在今年年內(nèi)真的發(fā)布可以與其匹敵的GPU服務(wù)器后，其壟斷是否還能存在呢？

過往的分析認(rèn)為壟斷還將繼續(xù)一段時間。H100的壟斷地位帶來的服務(wù)器間兼容性問題、英偉達(dá)苦心經(jīng)營多年的服務(wù)器套組CUDA太過好用，工程師不愿放棄都是可能的原因。但有著更便宜，性能不差的競品，這種壟斷還能維持多久？因此英偉達(dá)這次的新定價策略就很值得玩味了。

一般的分析機(jī)構(gòu)認(rèn)為內(nèi)存升級了，價格還得漲。

比如Wolfe Research的克里斯·卡索（Chris Caso）在客戶報告中稱，鑒于H200提供的性能提升，該款芯片的售價可能會更貴。英偉達(dá)沒有披露該產(chǎn)品的售價，但CNBC報告稱，上一代H100估計每顆售價在2.5萬美元到4萬美元之間，因為采用了HBM3e內(nèi)存，H200的售價可能會更貴。

但英偉達(dá)發(fā)言人克里斯汀·內(nèi)山（Kristin Uchiyama）卻表達(dá)的更曖昧，稱定價將由英偉達(dá)的合作伙伴設(shè)定。

上個季度，英偉達(dá)僅在該領(lǐng)域的營收就達(dá)到創(chuàng)紀(jì)錄的103.2億美元(總營收為135.1億美元)，比去年同期增長了171%。毫無疑問，英偉達(dá)希望新的GPU和超級芯片將有助于延續(xù)這一趨勢。因為這就是它的賺錢之本。

目前H200的定價還沒有公開，它更多會是英偉達(dá)對于后續(xù)壟斷前景的自信指數(shù)。

04新顯卡能否打破GPU荒？期待H100增量更現(xiàn)實

H100上市至今一直處于供不應(yīng)求的狀態(tài)。包括甲骨文創(chuàng)始人拉里·埃里森和“硅谷鋼鐵俠”埃隆·馬斯克都曾為能夠買到這款GPU在社交媒體上狂吹。

那在H200正式發(fā)售之后，客戶能否獲得新芯片，或者它是否會像H100一樣受到供應(yīng)的限制--英偉達(dá)對此沒有太多的答案。

第一批H200芯片將于2024年第二季度發(fā)布，英偉達(dá)表示，它正在與“全球系統(tǒng)制造商和云服務(wù)提供商”合作。除此之外，英偉達(dá)發(fā)言人克里斯汀·內(nèi)山（Kristin Uchiyama）拒絕就生產(chǎn)數(shù)量發(fā)表評論。

英偉達(dá)宣布這一消息之際，人工智能公司仍在拼命尋找H100芯片。英偉達(dá)的芯片被視為有效處理訓(xùn)練和操作生成式圖像工具和大型語言模型所需的大量數(shù)據(jù)的最佳選擇。誰擁有H100就會成為硅谷的焦點(diǎn)，初創(chuàng)公司一直在通過合作獲得對H100的訪問權(quán)。

內(nèi)山表示，H200的發(fā)布不會影響H100的產(chǎn)量。他表示：“你將看到我們?nèi)甑目傮w供應(yīng)量將會增長，我們將繼續(xù)購買長期供應(yīng)。”

對于GPU購買者而言，明年的情況可能會比今年好許多。今年8月，英國《金融時報》報道稱，英偉達(dá)計劃在2024年將H100的產(chǎn)量增加兩倍，目標(biāo)是明年生產(chǎn)多達(dá)200萬顆，高于2023年的約50萬顆。但隨著生成式人工智能在今年迎來大發(fā)展，市場對先進(jìn)GPU的需求可能只會更大。