編者按:本文來自微信公眾號(hào) 遠(yuǎn)川科技評(píng)論(ID:kechuangych),作者:葉子凌,編輯:陳彬,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
今年早些時(shí)候,外媒曝光了微軟與OpenAI的一項(xiàng)“瘋狂計(jì)劃”:斥資千億美金,定制一個(gè)史無前例的數(shù)據(jù)中心。然而,面對(duì)這一重大利好,英偉達(dá)卻心情復(fù)雜:
爆料顯示,OpenAI拒絕使用英偉達(dá)的InfiniBand網(wǎng)絡(luò)設(shè)備,轉(zhuǎn)而投奔以太網(wǎng)的陣營[1]。
眾所周知,一個(gè)數(shù)據(jù)中心往往有數(shù)千甚至上萬臺(tái)服務(wù)器;而連通這些服務(wù)器的,正是以InfiniBand和以太網(wǎng)為代表的網(wǎng)絡(luò)互聯(lián)技術(shù)。
英偉達(dá)是InfiniBand路線的主要玩家,獨(dú)家提供了相關(guān)的交換機(jī)、電纜等硬件設(shè)備;其余的科技公司,則扎堆在以太網(wǎng)賽道。
英偉達(dá)Quantum-X800 InfiniBand 交換機(jī)
OpenAI的“反水”,對(duì)英偉達(dá)而言是個(gè)巨大噩耗。
要知道,InfiniBand與以太網(wǎng),彼此已互相競爭多年。InfiniBand曾一度遙遙突出:2015年時(shí),超級(jí)計(jì)算機(jī)Top500榜單中,超半數(shù)的上榜者都在使用InfiniBand。但在當(dāng)下,隨著大客戶陸續(xù)倒戈,InfiniBand正在輸?shù)舯荣悺?/strong>
去年7月,AMD、微軟等9家硅谷大廠聯(lián)手成立了超以太網(wǎng)聯(lián)盟(UEC),準(zhǔn)備徹底擊潰InfiniBand。今年一季度,英偉達(dá)的InfiniBand網(wǎng)絡(luò)設(shè)備收入,出現(xiàn)了環(huán)比下降[2]。與數(shù)據(jù)中心等一路狂飆的業(yè)務(wù)相比,顯得格外突出。
那么問題來了:
1.英偉達(dá)的“親兒子”InfiniBand,為何會(huì)處于劣勢(shì)?
2.對(duì)于英偉達(dá)而言,互聯(lián)為何是場(chǎng)不能失敗的競賽?
派別之爭
InfiniBand的初衷,是為了解決當(dāng)前算力最大的瓶頸——傳輸速度。
兩臺(tái)服務(wù)器連接在一起,“1+1”所實(shí)現(xiàn)的算力必定會(huì)“小于2”,因?yàn)閿?shù)據(jù)傳輸速度遠(yuǎn)遠(yuǎn)小于服務(wù)器的算力??梢园衙颗_(tái)服務(wù)器,想象成一座擁有一萬輛卡車的小城鎮(zhèn);受制于客觀環(huán)境,每天只能往隔壁城鎮(zhèn)運(yùn)輸200卡車的貨物。
數(shù)據(jù)中心則是由上千個(gè)小鎮(zhèn)構(gòu)成的王國。小鎮(zhèn)與小鎮(zhèn)之間的運(yùn)輸問題,會(huì)嚴(yán)重拖累整個(gè)王國的發(fā)展。
而限制傳輸速度的罪魁禍?zhǔn)祝锹浜蟮?/strong>網(wǎng)絡(luò)協(xié)議。
所謂網(wǎng)絡(luò)協(xié)議,可以簡單理解為一種“交通規(guī)則”。計(jì)算機(jī)之間的信息傳輸,都沿著這一“交通規(guī)則”有序進(jìn)行。最初的交通規(guī)則 ,是一種名為TCP/IP的網(wǎng)絡(luò)協(xié)議。
這項(xiàng)交通規(guī)則,有個(gè)明顯缺陷:數(shù)據(jù)在傳輸時(shí),需要經(jīng)過CPU,極度占用CPU資源,導(dǎo)致延遲特別高。
相當(dāng)于卡車運(yùn)貨的公路上,設(shè)有大批人工收費(fèi)站。車子每開一段路,都要停下來掏出錢包繳費(fèi),造成了嚴(yán)重?fù)矶?,運(yùn)行效率可想而知。
在這一大背景下,全新的RDMA網(wǎng)絡(luò)協(xié)議(遠(yuǎn)程直接內(nèi)存訪問)應(yīng)運(yùn)而生。顧名思義,它可以繞過CPU,直接訪問另一臺(tái)服務(wù)器的內(nèi)存。換句話說,新的交通規(guī)則,將高速公路上的人工收費(fèi)站全撤走了,改設(shè)成ETC。
但基于RDMA網(wǎng)絡(luò)協(xié)議,業(yè)界卻衍生出了兩個(gè)不同的實(shí)現(xiàn)方向:
一是“外部革新派”。
基于RDMA全部推翻重來,重新構(gòu)建一套網(wǎng)絡(luò)協(xié)議,以實(shí)現(xiàn)極致的性能。其成果,正是英偉達(dá)的InfiniBand。全新的交通規(guī)則,使得數(shù)據(jù)傳輸可以同時(shí)繞過CPU與內(nèi)存,相當(dāng)于把ETC也撤了,直接通過GPU進(jìn)行數(shù)據(jù)交互。
InfiniBand(無限帶寬)這個(gè)名字,正是其極致理念的一種體現(xiàn)。
二是“內(nèi)部改良派”。
一個(gè)熱知識(shí),以太網(wǎng)是最普及的局域網(wǎng)技術(shù),幾乎所有計(jì)算機(jī)系統(tǒng)都支持以太網(wǎng)設(shè)備。改良派的做法,正是利用RDMA網(wǎng)絡(luò)協(xié)議,去改造以太網(wǎng)。
由此可見,InfiniBand與以太網(wǎng)的競爭,本質(zhì)是同一技術(shù)路線的派別之爭。
在算力供應(yīng)嚴(yán)重不足的當(dāng)下,大刀闊斧革新的InfiniBand,本應(yīng)更加受到市場(chǎng)青睞。然而,各大硅谷巨頭卻“十動(dòng)然拒”。不光是微軟,Meta也選擇全面擁抱以太網(wǎng)。
InfiniBand之所以如此不受待見,問題恰恰出在革新過于激進(jìn)了。
激進(jìn)的代價(jià)
2019年,圍繞以色列公司Mellanox,微軟、英特爾、英偉達(dá)三家巨頭展開了激烈的競購。
Mellanox是InfiniBand方案的唯一提供商,市值為22億美金。為此,英特爾專門預(yù)留了60億美金的現(xiàn)金流,本以為勝券在握;沒想到英偉達(dá)更狠,以69億美金的高價(jià)將Mellanox收入囊中[7]。
這是英偉達(dá)有史以來最貴的一筆收購。然而,老黃的梭哈,給英偉達(dá)帶來了不菲的經(jīng)濟(jì)回報(bào)。
前文曾提到,InfiniBand只是一種“交通規(guī)則”;想要使用這項(xiàng)技術(shù),還得搭配硬件。
然而,由于InfiniBand的革新過于激進(jìn),重新設(shè)計(jì)了物理鏈路層、網(wǎng)絡(luò)層、傳輸層,并不適配傳統(tǒng)的硬件,需要更換整套基礎(chǔ)設(shè)施,包括專門的交換機(jī)、網(wǎng)卡、電纜。
這些配套網(wǎng)絡(luò)設(shè)備,全部由英偉達(dá)獨(dú)家提供。
相當(dāng)于InfiniBand重新定義了一套更高效的交通規(guī)則,但并不適用于小鎮(zhèn)原本的燃油卡車;為了提升送貨效率,小鎮(zhèn)還得向英偉達(dá)采購一批新能源卡車。
由此可見,InfiniBand其實(shí)是一套“專用”方案。通過推廣這一方案,英偉達(dá)可以大搞捆綁銷售,向客戶兜售專用的配套網(wǎng)絡(luò)設(shè)施。
因此,InfiniBand的使用成本一直很高??萍脊驹诮ㄔO(shè)數(shù)據(jù)中心時(shí),需要掏出20%的開支用于InfiniBand;如果改成通用的以太網(wǎng)方案,只需要一半甚至更少的費(fèi)用[8]。
為了讓科技公司用InfiniBand,老黃可謂用盡套路:
例如英偉達(dá)同時(shí)售賣InfiniBand與以太網(wǎng)的網(wǎng)卡,兩者的電路板設(shè)計(jì)完全相同,但以太網(wǎng)的交貨時(shí)間明顯更長[9]。
用于InfiniBand的ConnectX-8 超級(jí)網(wǎng)卡
英偉達(dá)的小算盤在于,雖然咱貴,但性能強(qiáng)啊。InfiniBand方案可以大大改善AI訓(xùn)練,早點(diǎn)把模型做出來投入市場(chǎng),這錢不就賺回來了嗎?
然而,令英偉達(dá)尷尬的是,隨著“內(nèi)部改良派”陣營不斷壯大,InfiniBand與以太網(wǎng)的性能差距被縮小了。
2014年時(shí),改良派的最新成果RoCE v2網(wǎng)絡(luò)協(xié)議問世,改變了InfiniBand一枝獨(dú)秀的局面。去年,英偉達(dá)面向InfiniBand與以太網(wǎng),分別推出了一款交換機(jī)。盡管兩者定位有所不同,但均能實(shí)現(xiàn)800Gb/s的端到端吞吐量。
當(dāng)通用方案也能做到85分時(shí),專用方案便開始失去魅力。5-10分的突出,很難讓科技公司多付一倍的價(jià)錢。
而去年7月成立的超以太網(wǎng)聯(lián)盟,則打算在RoCE v2網(wǎng)絡(luò)協(xié)議的基礎(chǔ)上,面向大模型這一場(chǎng)景,開發(fā)一套新的以太網(wǎng)協(xié)議,全面超越InfiniBand。
新的“反英偉達(dá)聯(lián)盟”一呼百應(yīng)。截至今年3月,包括字節(jié)跳動(dòng)、阿里云、百度等國內(nèi)科技公司,也加入了其中。
圖:部分UEC技術(shù)指導(dǎo)委員會(huì)成員
面對(duì)超以太網(wǎng)聯(lián)盟的“正義群毆”,英偉達(dá)沒有再負(fù)隅頑抗。
過去一年,黃仁勛越來越少在公開場(chǎng)合提及InfiniBand。將來,InfiniBand與以太網(wǎng)之爭或?qū)u漸劃上句號(hào)。然而,英偉達(dá)并沒有放棄互聯(lián)這塊蛋糕,轉(zhuǎn)而將籌碼押注到自家的Spectrum X以太網(wǎng)平臺(tái)上。
因?yàn)椋ヂ?lián)正日漸成為大模型時(shí)代的兵家必爭之地。
下一個(gè)戰(zhàn)場(chǎng)
今年1月,美國咨詢公司Dell'Oro Group發(fā)布了一份報(bào)告,當(dāng)中提到:隨著人工智能爆發(fā),科技公司對(duì)通信互聯(lián)的需求激增,從而帶動(dòng)交換機(jī)市場(chǎng)擴(kuò)大50%[10]。
科技公司之所以對(duì)互聯(lián)這么熱情,是因?yàn)樵谶^去一年的野蠻擴(kuò)張中,漸漸觸碰到了天花板。而以InfiniBand和以太網(wǎng)為代表的互聯(lián)技術(shù),正是打破瓶頸的關(guān)鍵。
科技公司遇到的第一個(gè)問題,是算力開支過于昂貴。
英偉達(dá)的AI芯片,一向以昂貴著稱:最新的B200芯片,單塊起售價(jià)達(dá)到了3-4萬美金。眾所周知,大模型是一只喂不飽的“算力吞金獸”。為了滿足日常使用,科技公司通常需要采購至少上千塊AI芯片,這錢燒得比直接碎鈔都快。
如果自研芯片,同樣也會(huì)遇到類似的問題。由于芯片制程迭代放緩,提升芯片算力上限,需要付出更多的成本。
然而,由于傳輸速度的限制,數(shù)據(jù)中心并沒有發(fā)揮出芯片全部的算力。相比于硬著頭皮堆芯片,提升數(shù)據(jù)傳輸速度,提高算力利用率,相對(duì)更具性價(jià)比一些。
第二個(gè)問題是功耗。
隨著數(shù)據(jù)中心越做越大,功耗也在直線上升。扎克伯格曾在采訪中提到,近幾年新建的數(shù)據(jù)中心,功耗已經(jīng)達(dá)到了50-100兆瓦,稍大一點(diǎn)的已經(jīng)達(dá)到了150兆瓦。按照這個(gè)趨勢(shì)下去,300、500乃至1000兆瓦,都只是時(shí)間問題[11]。
然而,根據(jù)美國能源信息署的數(shù)據(jù),在2022年夏天,硅谷所在的加州,總發(fā)電量為85981兆瓦[12]。面對(duì)越來越多的“電力怪獸”,電網(wǎng)實(shí)在有些滿頭大汗。
為了訓(xùn)練GPT-6,微軟與OpenAI曾搭建了一個(gè)由10萬張H100組成的服務(wù)器集群,測(cè)試了一下發(fā)現(xiàn)當(dāng)?shù)仉娋W(wǎng)直接罷工。
目前,微軟與OpenAI的解決方案,是“跨地區(qū)的分布式超大規(guī)模集群訓(xùn)練”。
翻譯成人話就是,將幾十甚至上百萬塊AI芯片,分散在多個(gè)城市或者地區(qū),再借助InfiniBand或者以太網(wǎng),連成一個(gè)整體——互聯(lián)又一次發(fā)揮了至關(guān)重要的作用[13]。
如果說,大模型世界的準(zhǔn)則,是大力出奇跡;那么互聯(lián)的價(jià)值,就在于拔高大力出奇跡的物理上限,讓scaling law的飛輪再轉(zhuǎn)得久一些。
在人工智能時(shí)代,互聯(lián)注定將會(huì)是最重要的議題之一;而對(duì)英偉達(dá),以及其他科技公司而言,這都是一場(chǎng)輸不起的比賽。
尾聲
在硅谷,英偉達(dá)越來越像只“惡龍”。在互聯(lián)的領(lǐng)域,大半科技公司都站在了英偉達(dá)的對(duì)立面。至于GPU就更不必說,大廠自研芯片擺脫英偉達(dá),早已是個(gè)公開的秘密。
老黃這么不受待見,很大一個(gè)原因,是因?yàn)殄X基本都被他賺去了。
不論是InfiniBand,還是AI芯片,英偉達(dá)都幾乎做到了壟斷,擁有很強(qiáng)的議價(jià)權(quán)。相比之下,科技公司們?cè)汛鬅扐I,卻苦于沒有成熟的商業(yè)模式。大家回頭一看,發(fā)現(xiàn)只有一個(gè)皮衣男子賺得盆滿缽滿,難免心有不快。
所以,也不怪硅谷大廠們都開始“自力更生”了。畢竟,“窮”才是推動(dòng)進(jìn)步的原動(dòng)力。
參考資料
[1] OpenAI Moves to Lessen Reliance on Some Nvidia Hardware,the information
[2] 以太網(wǎng)崛起,英偉達(dá)Infiniband正在遭受蠶食,半導(dǎo)體行業(yè)觀察
[3] 黃仁勛最新2萬字演講實(shí)錄:將打破摩爾定律發(fā)布新產(chǎn)品,機(jī)器人時(shí)代已經(jīng)到來,騰訊科技
[4] IB or RoCE?AI數(shù)據(jù)中心網(wǎng)絡(luò)互聯(lián),Haipi智途
[5] Is InfiniBand finally ready for prime time,computerworld
[6] InfiniBand見解:在數(shù)字時(shí)代推動(dòng)高性能計(jì)算,飛速社區(qū)
[7] CONNECTING THE DOTS ON WHY NVIDIA IS BUYING MELLANOX,The Next Platform
[8] GREASING THE SKIDS TO MOVE AI FROM INFINIBAND TO ETHERNET,The Next Platform
[9] Nvidia’s Plans To Crush Competition – B100, “X100”, H200, 224G SerDes, OCS, CPO, PCIe 7.0, HBM3E,SemiAnalysis
[10] AI Workloads Require New Network Buildouts Expanding Data Center Switch Market by 50 Percent, According to Dell’Oro Group
[11] AI GPU bottleneck has eased, but now power will constrain AI growth warns Zuckerberg,tomshardware
[12] Energy Information Administration
[13] 為什么說“互聯(lián)”會(huì)是未來科技投資重要命題,信息平權(quán)
[14] AI以太網(wǎng)價(jià)值幾何,國盛證券
本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表,版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn),不代表創(chuàng)業(yè)邦立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者。如有任何疑問,請(qǐng)聯(lián)系editor@cyzone.cn。