英偉達(dá)掌握AI時(shí)代“摩爾定律”，會加大中美AI公司差距么？

阿爾法公社·2024-03-21

8年時(shí)間，英偉達(dá)AI芯片的算力增長了1000倍。

編者按：本文來自微信公眾號阿爾法公社（ID：alphastartups），作者：發(fā)現(xiàn)非凡創(chuàng)業(yè)者的，創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。

當(dāng)?shù)貢r(shí)間3月18日，英偉達(dá)在2024 GTC大會上發(fā)布了多款芯片、軟件產(chǎn)品。

創(chuàng)始人黃仁勛表示：“通用計(jì)算已經(jīng)失去動力，現(xiàn)在我們需要更大的AI模型，更大的GPU，需要將更多GPU堆疊在一起。這不是為了降低成本，而是為了擴(kuò)大規(guī)模?！?

作為GTC大會的核心，英偉達(dá)發(fā)布了Blackwell GPU，它分為B200和GB200系列，后者集成了1個(gè)Grace CPU和2個(gè)B200 GPU。

NVIDIA GB200 NVL72大型機(jī)架系統(tǒng)使用GB200芯片，搭配NVIDIA BlueField-3數(shù)據(jù)處理單元、第五代NVLink互聯(lián)等技術(shù)，對比相同數(shù)量H100 Tensor核心的系統(tǒng)，在推理上有高達(dá)30倍的性能提升，并將成本和能耗降低了25倍。

在AI應(yīng)用方面，英偉達(dá)推出Project GR00T機(jī)器人基礎(chǔ)模型及Isaac機(jī)器人平臺的重要更新。

英偉達(dá)展示其AI芯片的算力在過去8年里實(shí)現(xiàn)了1000倍的增長，這代表AI時(shí)代的摩爾定律（算力快速增長，算力成本快速下降）正在形成。

實(shí)現(xiàn)10萬億參數(shù)AI模型的訓(xùn)練和實(shí)時(shí)推理

在GTC大會上，英偉達(dá)不僅發(fā)布了算力方面的更新，也介紹了其在應(yīng)用方面的進(jìn)展。

1.更強(qiáng)的訓(xùn)練算力，更快、成本更低的推理

Blackwell不僅是一塊芯片，也是一個(gè)平臺。英偉達(dá)的目標(biāo)是讓規(guī)模達(dá)到10萬億參數(shù)的AI模型可以輕松訓(xùn)練和實(shí)時(shí)推理。

它最小的單元是B200，內(nèi)置2080億個(gè)晶體管，使用定制的4NP TSMC工藝制造，采用Chiplet架構(gòu)，兩個(gè)GPU dies通過每秒10TB的芯片到芯片鏈接連接成一個(gè)統(tǒng)一的GPU。

GB200超級芯片則將兩個(gè)B200 Tensor核心GPU通過每秒900GB的超低功耗NVLink芯片到芯片互連技術(shù)與NVIDIA Grace CPU連接。

再往上一層，則是NVIDIA GB200 NVL72，這是一個(gè)多節(jié)點(diǎn)、液冷的機(jī)架系統(tǒng)，它內(nèi)含36個(gè)Grace Blackwell超級芯片，包括72個(gè)Blackwell GPU和36個(gè)Grace CPU，在NVIDIA BlueField-3數(shù)據(jù)處理單元的支持下，它能實(shí)現(xiàn)云網(wǎng)絡(luò)加速、可組合存儲、零信任安全性以及在超大規(guī)模AI云中的GPU計(jì)算彈性。

這個(gè)系統(tǒng)可以被作為"單個(gè)GPU"工作，這時(shí)它能提供1.4 exaflops的AI性能和30TB的快速內(nèi)存。據(jù)稱，一個(gè)GB200 NVL72就最高支持27萬億參數(shù)的模型。

最大規(guī)模的系統(tǒng)則是DGX SuperPOD，NVIDIA GB200 NVL72是DGX SuperPOD的構(gòu)建單元，這些系統(tǒng)通過NVIDIA Quantum InfiniBand網(wǎng)絡(luò)連接，可擴(kuò)展到數(shù)萬個(gè)GB200超級芯片。

此外，NVIDIA還提供HGX B200服務(wù)器板，通過NVLink將八個(gè)B200 GPU連接起來，支持基于x86的生成式AI平臺。HGX B200通過NVIDIA Quantum-2 InfiniBand和Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺支持高達(dá)400Gb/s的網(wǎng)絡(luò)速度。

GB200還將在NVIDIA DGX云上提供給客戶，這是一個(gè)與AWS、谷歌云和甲骨文云等突出的云服務(wù)提供商共同設(shè)計(jì)的AI平臺，為企業(yè)開發(fā)者提供專用訪問權(quán)限，以構(gòu)建和部署先進(jìn)的生成式AI模型所需的基礎(chǔ)設(shè)施和軟件。

英偉達(dá)以實(shí)際的模型訓(xùn)練為例，訓(xùn)練一個(gè)GPT-MoE-1.8T模型（疑似指GPT-4），此前使用Hopper系列芯片需要8000塊GPU訓(xùn)練90天，現(xiàn)在使用GB200訓(xùn)練同樣的模型，只需要2000塊GPU，能耗也只有之前的四分之一。

由GB200組成的系統(tǒng)，相比相同數(shù)量的NVIDIA H100 Tensor核心GPU組成的系統(tǒng)，推理性能提升30倍，成本和能耗降低25倍。

在背后支持這些AI芯片和AI算力系統(tǒng)的是一系列新技術(shù)，包括提升性能的第二代Transformer引擎（支持雙倍的計(jì)算和模型大小）、第五代NVLink（提供了每個(gè)GPU1.8TB/s的雙向吞吐量）；提升可靠性的RAS引擎（使AI算力系統(tǒng)能夠連續(xù)運(yùn)行數(shù)周甚至數(shù)月）；以及安全AI（保護(hù)AI模型和客戶數(shù)據(jù)）等。

在軟件方面，Blackwell產(chǎn)品組合得到NVIDIA AI Enterprise的支持，這是一個(gè)端到端的企業(yè)級AI操作系統(tǒng)。NVIDIA AI Enterprise包括NVIDIA NIM推理微服務(wù)，以及企業(yè)可以在NVIDIA加速的云、數(shù)據(jù)中心和工作站上部署的AI框架、庫和工具。NIM推理微服務(wù)可對來自英偉達(dá)及合作伙伴的數(shù)十個(gè)AI模型進(jìn)行優(yōu)化推理。

綜合英偉達(dá)在算力方面的創(chuàng)新，我們看到它在AI模型訓(xùn)練和推理方面的顯著進(jìn)步。

在AI的模型訓(xùn)練方面，更強(qiáng)的芯片和更先進(jìn)的芯片間通訊技術(shù)，讓英偉達(dá)的算力基礎(chǔ)設(shè)施能夠以相對較低的成本訓(xùn)練更大的模型。GPT-4V和Sora代表了生成式AI的未來，即多模態(tài)模型和包括視頻在內(nèi)的視覺大模型，英偉達(dá)的進(jìn)步讓規(guī)模更大、更多模態(tài)和更先進(jìn)的模型成為可能。

在AI推理方面，目前越來越大的模型規(guī)模和越來越高的實(shí)時(shí)性要求，對于推理算力的挑戰(zhàn)十分嚴(yán)苛。英偉達(dá)的AI算力系統(tǒng)推理性能提升30倍，成本和能耗降低25倍。不僅讓大型模型的實(shí)時(shí)推理成為可能，而且解決了以往的并不算優(yōu)秀的能效和成本問題。

2.著重發(fā)力具身智能

英偉達(dá)在GTC大會上公布了一系列應(yīng)用方面的新成果，例如生物醫(yī)療、工業(yè)元宇宙、機(jī)器人、汽車等領(lǐng)域。其中機(jī)器人（具身智能）是它著重發(fā)力的方向。

它推出了針對仿生機(jī)器人的Project GR00T基礎(chǔ)模型及Isaac機(jī)器人平臺的重要更新。

Project GR00T是面向仿生機(jī)器人的通用多模態(tài)基礎(chǔ)模型，充當(dāng)機(jī)器人的“大腦”，使它們能夠?qū)W習(xí)解決各種任務(wù)的技能。

Isaac機(jī)器人平臺為開發(fā)者提供新型機(jī)器人訓(xùn)練模擬器、Jetson Thor機(jī)器人計(jì)算機(jī)、生成式AI基礎(chǔ)模型，以及CUDA加速的感知與操控庫

Isaac機(jī)器人平臺的客戶包括1X、Agility Robotics、Apptronik、Boston Dynamics、Figure AI和XPENG Robotics等突出的仿生機(jī)器人公司。

英偉達(dá)也涉足了工業(yè)機(jī)器人和物流機(jī)器人。Isaac Manipulator為機(jī)械臂提供了最先進(jìn)的靈巧性和模塊化AI能力。它在路徑規(guī)劃上提供了高達(dá)80倍的加速，并通過Zero Shot感知（代表成功率和可靠性）提高了效率和吞吐量。其早期生態(tài)系統(tǒng)合作伙伴包括安川電機(jī)、PickNik Robotics、Solomon、READY Robotics和Franka Robotics。

Isaac Perceptor提供了多攝像頭、3D環(huán)繞視覺能力，這些能力對于自動搬運(yùn)機(jī)器人特別有用，它幫助ArcBest、比亞迪等在物料處理操作等方面實(shí)現(xiàn)新的自動化水平。

英偉達(dá)算力井噴后，對創(chuàng)業(yè)公司有何影響？

在發(fā)展方式上，英偉達(dá)與OpenAI等公司有明顯的不同。

OpenAI以及Anthropic、Meta等公司是以AI模型為核心，然后運(yùn)營平臺和生態(tài)；英偉達(dá)則以算力為核心，并拓展到軟件平臺和AI的相關(guān)應(yīng)用。并且在應(yīng)用方面，它并沒有表現(xiàn)出一家壟斷的態(tài)勢，而是與各種行業(yè)的合作伙伴共創(chuàng)，其目的是建立一個(gè)軟硬件結(jié)合的龐大生態(tài)。

此次英偉達(dá)在算力方面的進(jìn)步，對于AI創(chuàng)業(yè)公司們也產(chǎn)生了深刻影響。

對于大模型領(lǐng)域創(chuàng)業(yè)公司，例如OpenAI等，這顯然是利好，因?yàn)樗麄兡芤愿斓念l率，更低的成本訓(xùn)練規(guī)模更大，模態(tài)更多的模型，并且有機(jī)會進(jìn)一步降低API的價(jià)格，擴(kuò)展客戶群體。

對于AI應(yīng)用領(lǐng)域的創(chuàng)業(yè)公司，英偉達(dá)不僅將推理算力性能提高了數(shù)十倍，而且降低了能耗和成本。這讓AI應(yīng)用公司們能在成本可承擔(dān)的前提下，拓展業(yè)務(wù)規(guī)模，隨著AI算力的進(jìn)一步增長，未來AI應(yīng)用公司的運(yùn)營成本還可能進(jìn)一步降低。

對于AI芯片領(lǐng)域的創(chuàng)業(yè)公司，英偉達(dá)的大更新讓他們感受到了明顯壓力，而且英偉達(dá)提供的是一套完整的系統(tǒng)，包括算力芯片，芯片間通信技術(shù)，打破內(nèi)存墻的網(wǎng)絡(luò)芯片等。AI芯片創(chuàng)業(yè)公司必須找到自己真正能建立優(yōu)勢的方向，而不是因?yàn)橛ミ_(dá)這類巨頭的一兩次更新就失去存在價(jià)值。

中國的AI創(chuàng)業(yè)公司，因?yàn)楦鞣N各樣的原因，很難使用最新最強(qiáng)的英偉達(dá)AI芯片，作為替代的國產(chǎn)AI芯片在算力和能效比上目前仍有差距，這可能導(dǎo)致專注大模型領(lǐng)域的公司們在模型的規(guī)模擴(kuò)展和迭代速度上與海外的差距拉大。

對于中國的AI應(yīng)用公司，則仍有機(jī)會。因?yàn)樗鼈儾粌H可以用國內(nèi)的基礎(chǔ)模型，也可以用海外的先進(jìn)開源模型。中國擁有全球知名的AI工程師和產(chǎn)品經(jīng)理，他們打造的產(chǎn)品足可以參與全球競爭，這讓AI應(yīng)用公司們進(jìn)可以開拓海外市場，還有足夠龐大的國內(nèi)市場做基本盤，AI時(shí)代的字節(jié)跳動、米哈游很可能在它們中間產(chǎn)生。

本文由阿爾法公社原創(chuàng)。

本文為專欄作者授權(quán)創(chuàng)業(yè)邦發(fā)表，版權(quán)歸原作者所有。文章系作者個(gè)人觀點(diǎn)，不代表創(chuàng)業(yè)邦立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系editor@cyzone.cn。

阿爾法公社

文章數(shù)122閱讀677.2K關(guān)注188

阿爾法公社是行業(yè)領(lǐng)先的天使投資基金，以發(fā)現(xiàn)非凡創(chuàng)業(yè)者為愿景，由曾經(jīng)帶領(lǐng)公司在納斯達(dá)克上市的連續(xù)創(chuàng)業(yè)者于2015年創(chuàng)立。我們的三大特點(diǎn)是聚焦早期投資，協(xié)同產(chǎn)業(yè)力量，助力公司起步。從產(chǎn)業(yè)需求和科技前沿出發(fā)，我們系統(tǒng)性地尋找高成長性的大機(jī)會。阿爾法公社發(fā)現(xiàn)并投資非凡創(chuàng)業(yè)者，像早期聯(lián)合創(chuàng)始人一樣共同探索創(chuàng)業(yè)之路，協(xié)同廣泛的產(chǎn)業(yè)力量，助力他們成為世界級的行業(yè)領(lǐng)袖。