當(dāng)?shù)貢r(shí)間3月18日,英偉達(dá)在2024 GTC大會(huì)上發(fā)布了多款芯片、軟件產(chǎn)品。
創(chuàng)始人黃仁勛表示:“通用計(jì)算已經(jīng)失去動(dòng)力,現(xiàn)在我們需要更大的AI模型,更大的GPU,需要將更多GPU堆疊在一起。這不是為了降低成本,而是為了擴(kuò)大規(guī)模。”
作為GTC大會(huì)的核心,英偉達(dá)發(fā)布了Blackwell GPU,它分為B200和GB200系列,后者集成了1個(gè)Grace CPU和2個(gè)B200 GPU。
NVIDIA GB200 NVL72大型機(jī)架系統(tǒng)使用GB200芯片,搭配NVIDIA BlueField-3數(shù)據(jù)處理單元、第五代NVLink互聯(lián)等技術(shù),對(duì)比相同數(shù)量H100 Tensor核心的系統(tǒng),在推理上有高達(dá)30倍的性能提升,并將成本和能耗降低了25倍。
在AI應(yīng)用方面,英偉達(dá)推出Project GR00T機(jī)器人基礎(chǔ)模型及Isaac機(jī)器人平臺(tái)的重要更新。
英偉達(dá)展示其AI芯片的算力在過去8年里實(shí)現(xiàn)了1000倍的增長(zhǎng),這代表AI時(shí)代的摩爾定律(算力快速增長(zhǎng),算力成本快速下降)正在形成。
實(shí)現(xiàn)10萬(wàn)億參數(shù)AI模型的訓(xùn)練和實(shí)時(shí)推理
在GTC大會(huì)上,英偉達(dá)不僅發(fā)布了算力方面的更新,也介紹了其在應(yīng)用方面的進(jìn)展。
1.更強(qiáng)的訓(xùn)練算力,更快、成本更低的推理
Blackwell不僅是一塊芯片,也是一個(gè)平臺(tái)。英偉達(dá)的目標(biāo)是讓規(guī)模達(dá)到10萬(wàn)億參數(shù)的AI模型可以輕松訓(xùn)練和實(shí)時(shí)推理。
它最小的單元是B200,內(nèi)置2080億個(gè)晶體管,使用定制的4NP TSMC工藝制造,采用Chiplet架構(gòu),兩個(gè)GPU dies通過每秒10TB的芯片到芯片鏈接連接成一個(gè)統(tǒng)一的GPU。
GB200超級(jí)芯片則將兩個(gè)B200 Tensor核心GPU通過每秒900GB的超低功耗NVLink芯片到芯片互連技術(shù)與NVIDIA Grace CPU連接。
再往上一層,則是NVIDIA GB200 NVL72,這是一個(gè)多節(jié)點(diǎn)、液冷的機(jī)架系統(tǒng),它內(nèi)含36個(gè)Grace Blackwell超級(jí)芯片,包括72個(gè)Blackwell GPU和36個(gè)Grace CPU,在NVIDIA BlueField-3數(shù)據(jù)處理單元的支持下,它能實(shí)現(xiàn)云網(wǎng)絡(luò)加速、可組合存儲(chǔ)、零信任安全性以及在超大規(guī)模AI云中的GPU計(jì)算彈性。
這個(gè)系統(tǒng)可以被作為"單個(gè)GPU"工作,這時(shí)它能提供1.4 exaflops的AI性能和30TB的快速內(nèi)存。據(jù)稱,一個(gè)GB200 NVL72就最高支持27萬(wàn)億參數(shù)的模型。
最大規(guī)模的系統(tǒng)則是DGX SuperPOD,NVIDIA GB200 NVL72是DGX SuperPOD的構(gòu)建單元,這些系統(tǒng)通過NVIDIA Quantum InfiniBand網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬(wàn)個(gè)GB200超級(jí)芯片。
此外,NVIDIA還提供HGX B200服務(wù)器板,通過NVLink將八個(gè)B200 GPU連接起來(lái),支持基于x86的生成式AI平臺(tái)。HGX B200通過NVIDIA Quantum-2 InfiniBand和Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái)支持高達(dá)400Gb/s的網(wǎng)絡(luò)速度。
GB200還將在NVIDIA DGX云上提供給客戶,這是一個(gè)與AWS、谷歌云和甲骨文云等突出的云服務(wù)提供商共同設(shè)計(jì)的AI平臺(tái),為企業(yè)開發(fā)者提供專用訪問權(quán)限,以構(gòu)建和部署先進(jìn)的生成式AI模型所需的基礎(chǔ)設(shè)施和軟件。
英偉達(dá)以實(shí)際的模型訓(xùn)練為例,訓(xùn)練一個(gè)GPT-MoE-1.8T模型(疑似指GPT-4),此前使用Hopper系列芯片需要8000塊GPU訓(xùn)練90天,現(xiàn)在使用GB200訓(xùn)練同樣的模型,只需要2000塊GPU,能耗也只有之前的四分之一。
由GB200組成的系統(tǒng),相比相同數(shù)量的NVIDIA H100 Tensor核心GPU組成的系統(tǒng),推理性能提升30倍,成本和能耗降低25倍。
在背后支持這些AI芯片和AI算力系統(tǒng)的是一系列新技術(shù),包括提升性能的第二代Transformer引擎(支持雙倍的計(jì)算和模型大?。?、第五代NVLink(提供了每個(gè)GPU1.8TB/s的雙向吞吐量);提升可靠性的RAS引擎(使AI算力系統(tǒng)能夠連續(xù)運(yùn)行數(shù)周甚至數(shù)月);以及安全AI(保護(hù)AI模型和客戶數(shù)據(jù))等。
在軟件方面,Blackwell產(chǎn)品組合得到NVIDIA AI Enterprise的支持,這是一個(gè)端到端的企業(yè)級(jí)AI操作系統(tǒng)。NVIDIA AI Enterprise包括NVIDIA NIM推理微服務(wù),以及企業(yè)可以在NVIDIA加速的云、數(shù)據(jù)中心和工作站上部署的AI框架、庫(kù)和工具。NIM推理微服務(wù)可對(duì)來(lái)自英偉達(dá)及合作伙伴的數(shù)十個(gè)AI模型進(jìn)行優(yōu)化推理。
綜合英偉達(dá)在算力方面的創(chuàng)新,我們看到它在AI模型訓(xùn)練和推理方面的顯著進(jìn)步。
在AI的模型訓(xùn)練方面,更強(qiáng)的芯片和更先進(jìn)的芯片間通訊技術(shù),讓英偉達(dá)的算力基礎(chǔ)設(shè)施能夠以相對(duì)較低的成本訓(xùn)練更大的模型。GPT-4V和Sora代表了生成式AI的未來(lái),即多模態(tài)模型和包括視頻在內(nèi)的視覺大模型,英偉達(dá)的進(jìn)步讓規(guī)模更大、更多模態(tài)和更先進(jìn)的模型成為可能。
在AI推理方面,目前越來(lái)越大的模型規(guī)模和越來(lái)越高的實(shí)時(shí)性要求,對(duì)于推理算力的挑戰(zhàn)十分嚴(yán)苛。英偉達(dá)的AI算力系統(tǒng)推理性能提升30倍,成本和能耗降低25倍。不僅讓大型模型的實(shí)時(shí)推理成為可能,而且解決了以往的并不算優(yōu)秀的能效和成本問題。
2.著重發(fā)力具身智能
英偉達(dá)在GTC大會(huì)上公布了一系列應(yīng)用方面的新成果,例如生物醫(yī)療、工業(yè)元宇宙、機(jī)器人、汽車等領(lǐng)域。其中機(jī)器人(具身智能)是它著重發(fā)力的方向。
它推出了針對(duì)仿生機(jī)器人的Project GR00T基礎(chǔ)模型及Isaac機(jī)器人平臺(tái)的重要更新。
Project GR00T是面向仿生機(jī)器人的通用多模態(tài)基礎(chǔ)模型,充當(dāng)機(jī)器人的“大腦”,使它們能夠?qū)W習(xí)解決各種任務(wù)的技能。
Isaac機(jī)器人平臺(tái)為開發(fā)者提供新型機(jī)器人訓(xùn)練模擬器、Jetson Thor機(jī)器人計(jì)算機(jī)、生成式AI基礎(chǔ)模型,以及CUDA加速的感知與操控庫(kù)
Isaac機(jī)器人平臺(tái)的客戶包括1X、Agility Robotics、Apptronik、Boston Dynamics、Figure AI和XPENG Robotics等突出的仿生機(jī)器人公司。
英偉達(dá)也涉足了工業(yè)機(jī)器人和物流機(jī)器人。Isaac Manipulator為機(jī)械臂提供了最先進(jìn)的靈巧性和模塊化AI能力。它在路徑規(guī)劃上提供了高達(dá)80倍的加速,并通過Zero Shot感知(代表成功率和可靠性)提高了效率和吞吐量。其早期生態(tài)系統(tǒng)合作伙伴包括安川電機(jī)、PickNik Robotics、Solomon、READY Robotics和Franka Robotics。
Isaac Perceptor提供了多攝像頭、3D環(huán)繞視覺能力,這些能力對(duì)于自動(dòng)搬運(yùn)機(jī)器人特別有用,它幫助ArcBest、比亞迪等在物料處理操作等方面實(shí)現(xiàn)新的自動(dòng)化水平。
英偉達(dá)算力井噴后,對(duì)創(chuàng)業(yè)公司有何影響?
在發(fā)展方式上,英偉達(dá)與OpenAI等公司有明顯的不同。
OpenAI以及Anthropic、Meta等公司是以AI模型為核心,然后運(yùn)營(yíng)平臺(tái)和生態(tài);英偉達(dá)則以算力為核心,并拓展到軟件平臺(tái)和AI的相關(guān)應(yīng)用。并且在應(yīng)用方面,它并沒有表現(xiàn)出一家壟斷的態(tài)勢(shì),而是與各種行業(yè)的合作伙伴共創(chuàng),其目的是建立一個(gè)軟硬件結(jié)合的龐大生態(tài)。
此次英偉達(dá)在算力方面的進(jìn)步,對(duì)于AI創(chuàng)業(yè)公司們也產(chǎn)生了深刻影響。
對(duì)于大模型領(lǐng)域創(chuàng)業(yè)公司,例如OpenAI等,這顯然是利好,因?yàn)樗麄兡芤愿斓念l率,更低的成本訓(xùn)練規(guī)模更大,模態(tài)更多的模型,并且有機(jī)會(huì)進(jìn)一步降低API的價(jià)格,擴(kuò)展客戶群體。
對(duì)于AI應(yīng)用領(lǐng)域的創(chuàng)業(yè)公司,英偉達(dá)不僅將推理算力性能提高了數(shù)十倍,而且降低了能耗和成本。這讓AI應(yīng)用公司們能在成本可承擔(dān)的前提下,拓展業(yè)務(wù)規(guī)模,隨著AI算力的進(jìn)一步增長(zhǎng),未來(lái)AI應(yīng)用公司的運(yùn)營(yíng)成本還可能進(jìn)一步降低。
對(duì)于AI芯片領(lǐng)域的創(chuàng)業(yè)公司,英偉達(dá)的大更新讓他們感受到了明顯壓力,而且英偉達(dá)提供的是一套完整的系統(tǒng),包括算力芯片,芯片間通信技術(shù),打破內(nèi)存墻的網(wǎng)絡(luò)芯片等。AI芯片創(chuàng)業(yè)公司必須找到自己真正能建立優(yōu)勢(shì)的方向,而不是因?yàn)橛ミ_(dá)這類巨頭的一兩次更新就失去存在價(jià)值。
中國(guó)的AI創(chuàng)業(yè)公司,因?yàn)楦鞣N各樣的原因,很難使用最新最強(qiáng)的英偉達(dá)AI芯片,作為替代的國(guó)產(chǎn)AI芯片在算力和能效比上目前仍有差距,這可能導(dǎo)致專注大模型領(lǐng)域的公司們?cè)谀P偷囊?guī)模擴(kuò)展和迭代速度上與海外的差距拉大。
對(duì)于中國(guó)的AI應(yīng)用公司,則仍有機(jī)會(huì)。因?yàn)樗鼈儾粌H可以用國(guó)內(nèi)的基礎(chǔ)模型,也可以用海外的先進(jìn)開源模型。中國(guó)擁有全球知名的AI工程師和產(chǎn)品經(jīng)理,他們打造的產(chǎn)品足可以參與全球競(jìng)爭(zhēng),這讓AI應(yīng)用公司們進(jìn)可以開拓海外市場(chǎng),還有足夠龐大的國(guó)內(nèi)市場(chǎng)做基本盤,AI時(shí)代的字節(jié)跳動(dòng)、米哈游很可能在它們中間產(chǎn)生。
本文由阿爾法公社原創(chuàng)。